La procédure DATAMETRICS permet un profilage rapide et efficace des données. En spécifiant simplement une table d'entrée et une table de sortie, elle génère automatiquement des métriques pour toutes les variables présentes. Cela inclut la détection des identités potentielles, des valeurs manquantes, des formats de données, et d'autres indicateurs essentiels pour évaluer la qualité des données. L'absence de l'instruction 'IDENTITIES' signifie qu'aucune analyse d'identification spécifique n'est effectuée, et les options par défaut sont utilisées pour tous les calculs.
Analyse des données
Type : CREATION_INTERNE
Les exemples utilisent des données générées (datalines) pour assurer l'autonomie et la reproductibilité.
1 Bloc de code
PROC DATAMETRICS Data
Explication : Cet exemple montre l'utilisation la plus simple de PROC DATAMETRICS. Une table d'entrée 'my_data' est créée avec des données en ligne. La procédure est ensuite exécutée en spécifiant uniquement la table d'entrée et une table de sortie ('my_results'). Par défaut, elle génère des métriques de qualité pour toutes les variables de 'my_data'. L'instruction 'proc print' affiche les résultats pour examen.
Copié !
data my_data;
input ID $ Name $ Age Score;
datalines;
001 John 30 95
002 Jane 24 88
003 Mike . 72
004 Jane 24 88
005 Chris 45 60
006 John 30 95
007 Sarah 29 .
;
run;
proc datametrics data=my_data out=my_results;
run;
proc print data=my_results;
title 'Résultats Basiques de PROC DATAMETRICS';
run;
1
DATA my_data;
2
INPUT ID $ Name $ Age Score;
3
DATALINES;
4
001 John 3095
5
002 Jane 2488
6
003 Mike . 72
7
004 Jane 2488
8
005 Chris 4560
9
006 John 3095
10
007 Sarah 29 .
11
;
12
RUN;
13
14
PROC DATAMETRICSDATA=my_data out=my_results;
15
RUN;
16
17
PROC PRINTDATA=my_results;
18
title 'Résultats Basiques de PROC DATAMETRICS';
19
RUN;
2 Bloc de code
PROC DATAMETRICS Data
Explication : Cet exemple utilise la clause 'VARIABLES' pour spécifier les colonnes pour lesquelles les métriques doivent être générées (EmployeeID, Name, Department, Salary). L'option 'OUTPUT METRIC=ALL' est utilisée pour demander toutes les métriques disponibles. Cela permet une analyse plus ciblée des aspects de qualité de données pertinents pour l'utilisateur.
Copié !
data employees;
input EmployeeID Name $ Department $ Salary DateOfHire:yymmdd10.;
format DateOfHire yymmdd10.;
datalines;
101 Alice Sales 60000 2020-01-15
102 Bob Marketing 75000 2019-03-22
103 Alice Sales 60000 2020-01-15
104 Charlie IT 80000 2021-07-01
105 David Sales 62000 2020-01-15
;
run;
proc datametrics data=employees out=employee_metrics;
variables EmployeeID Name Department Salary;
output metric=ALL;
run;
proc print data=employee_metrics;
title 'Métriques de Qualité pour Variables Spécifiques';
run;
1
DATA employees;
2
INPUT EmployeeID Name $ Department $ Salary DateOfHire:yymmdd10.;
title 'Métriques de Qualité pour Variables Spécifiques';
20
RUN;
3 Bloc de code
PROC DATAMETRICS Data
Explication : Ce scénario avancé démontre la détection d'identités potentielles et l'analyse de métriques pour des variables spécifiques. L'instruction 'IDENTITIES' est utilisée pour identifier les colonnes (TransactionID, CustomerID, ProductID) qui pourraient contenir des valeurs uniques ou des doublons importants. La clause 'VARIABLES' se concentre sur 'Quantity' et 'Price'. 'OUTPUT METRIC=ALL OUTALL' demande toutes les métriques et ajoute les métriques calculées à la table de sortie, enrichissant ainsi le jeu de données original avec des informations de qualité.
title 'Analyse Avancée des Métriques et Identités de Transactions';
21
RUN;
4 Bloc de code
PROC DATAMETRICS (CAS) Data
Explication : Cet exemple adapte l'utilisation de PROC DATAMETRICS pour un environnement SAS Viya avec le moteur Cloud Analytic Services (CAS). Il commence par établir une session CAS et charger la table 'sales_data' dans la mémoire distribuée de CAS (bibliothèque 'mycas'). Ensuite, PROC DATAMETRICS est exécuté en utilisant la table CAS comme entrée et en dirigeant la sortie vers une nouvelle table CAS. L'utilisation de CAS permet de traiter de grands volumes de données de manière plus performante et distribuée. Les résultats sont ensuite affichés. La session CAS est terminée à la fin.
Copié !
/* Connexion à la session CAS et chargement des données */
cas;
libname mycas cas;
data mycas.sales_data;
input SaleID $ Region $ Amount Date:yymmdd10.;
format Date yymmdd10.;
datalines;
S001 East 1200.50 2024-01-10
S002 West 850.25 2024-01-11
S003 North 1500.00 2024-01-10
S004 South 980.75 2024-01-12
S005 East . 1000.00 2024-01-13
;
run;
/* Exécution de PROC DATAMETRICS sur CAS */
proc datametrics data=mycas.sales_data out=mycas.sales_metrics;
variables SaleID Region Amount Date;
output metric=ALL;
run;
/* Affichage des résultats depuis CAS */
proc print data=mycas.sales_metrics;
title 'Métriques de Qualité des Données de Ventes (CAS)';
run;
/* Arrêt de la session CAS */
cas term;
1
/* Connexion à la session CAS et chargement des données */
title 'Métriques de Qualité des Données de Ventes (CAS)';
26
RUN;
27
28
/* Arrêt de la session CAS */
29
cas term;
Ce matériel est fourni "tel quel" par We Are Cas. Il n'y a aucune garantie, expresse ou implicite, quant à la qualité marchande ou à l'adéquation à un usage particulier concernant le matériel ou le code contenu dans les présentes. We Are Cas n'est pas responsable des erreurs dans ce matériel tel qu'il existe maintenant ou existera, et We Are Cas ne fournit pas de support technique pour celui-ci.
SAS et tous les autres noms de produits ou de services de SAS Institute Inc. sont des marques déposées ou des marques de commerce de SAS Institute Inc. aux États-Unis et dans d'autres pays. ® indique un enregistrement aux États-Unis. WeAreCAS est un site communautaire indépendant et n'est pas affilié à SAS Institute Inc.
Ce site utilise des cookies techniques et analytiques pour améliorer votre expérience.
En savoir plus.