Les exemples utilisent des données générées en interne via des DATA steps avec DATALINES, garantissant leur autonomie et reproductibilité.
1 Bloc de code
DATA / PROC DATAMETRICS Data
Explication : Cet exemple initialise un jeu de données 'my_data' avec des informations factices (nom, adresse, ville, état). Ensuite, la procédure PROC DATAMETRICS est exécutée avec les paramètres minimaux requis pour calculer des métriques de qualité des données pour les variables 'name' et 'address'. Les résultats sont stockés dans la table 'basic_metrics'.
Copié !
data work.my_data;
length name $30 address $50 city $20 state $2;
input name $ address $ city $ state $;
datalines;
"John Doe" "123 Main St" "Anytown" "NY"
"Jane Smith" "456 Oak Ave" "Anycity" "CA"
"John Doe" "123 Main St" "Anytown" "NY"
"Peter Jones" "789 Pine Ln" "Otherville" "TX"
"Alice Brown" "101 Maple Dr" "Anytown" "NY"
"Bob White" "202 Elm St" "Otherville" "TX"
"Charlie Green" "303 Cedar Rd" "Anycity" "CA"
"David Black" "404 Birch Ct" "Anytown" "NY"
;
run;
proc datametrics data=work.my_data out=work.basic_metrics;
variables name address;
run;
proc print data=work.basic_metrics;
title "Métriques Basiques pour Nom et Adresse";
run;
Explication : Basé sur les données de l'exemple précédent, cet exemple utilise des options courantes : 'frequencies=10' pour les 10 valeurs les plus fréquentes, 'minmax=5' pour 5 valeurs minimales et maximales, et 'median' pour calculer la médiane. L'instruction 'identities' est utilisée pour intégrer une Quality Knowledge Base (QKB) spécifique à la localisation 'ENUSA' et à la définition 'Field Content' afin d'enrichir l'analyse d'identification.
Copié !
/* Assurez-vous que work.my_data est déjà créé à partir de l'Exemple 1 */
proc datametrics data=work.my_data out=work.common_metrics frequencies=10
minmax=5 median;
identities qkb='/sas/dqc/QKBLoc' locale='ENUSA' def='Field Content';
variables name address city;
run;
proc print data=work.common_metrics;
title "Métriques avec Fréquences, Min/Max, Médiane et QKB";
run;
1
/* Assurez-vous que work.my_data est déjà créé à partir de l'Exemple 1 */
title "Métriques avec Fréquences, Min/Max, Médiane et QKB";
11
RUN;
3 Bloc de code
PROC FORMAT / DATA / PROC DATAMETRICS
Explication : Cet exemple introduit un format personnalisé pour la variable 'state', puis applique ce format à un nouveau jeu de données 'formatted_data'. PROC DATAMETRICS est ensuite exécuté sur cette table formatée. Les options 'frequencies', 'minmax' et 'threads=4' sont utilisées pour un traitement en parallèle. L'option 'multiidentity' dans l'instruction 'identities' permet d'analyser plusieurs identités de qualité des données pour les variables spécifiées.
Copié !
/* Assurez-vous que work.my_data est déjà créé à partir de l'Exemple 1 */
proc format;
value $statefmt
'NY'='New York'
'CA'='California'
'TX'='Texas'
other='Autre';
run;
data work.formatted_data;
set work.my_data;
format state $statefmt.;
run;
proc datametrics data=work.formatted_data out=work.advanced_metrics
frequencies=20 minmax=10 threads=4 format;
identities qkb='/sas/dqc/QKBLoc' locale='ENUSA'
def='Field Content' multiidentity;
variables name address city state;
run;
proc print data=work.advanced_metrics;
title "Métriques Avancées avec Formats, Threads et Multi-identités";
run;
1
/* Assurez-vous que work.my_data est déjà créé à partir de l'Exemple 1 */
title "Métriques Avancées avec Formats, Threads et Multi-identités";
25
RUN;
4 Bloc de code
CASLIB / PROC CASUTIL / PROC DATAMETRICS
Explication : Cet exemple démontre l'intégration avec l'environnement Cloud Analytic Services (CAS) de SAS Viya. Le jeu de données 'my_data' est d'abord chargé dans une bibliothèque CAS ('casuser.my_cas_data') à l'aide de PROC CASUTIL. Ensuite, PROC DATAMETRICS est exécuté directement sur la table CAS en mémoire. Des options telles que 'frequencies', 'minmax' et 'threads' sont appliquées pour optimiser l'analyse des métriques dans un environnement distribué. Les résultats sont également stockés dans une table CAS.
Copié !
/* Assurez-vous que work.my_data est déjà créé à partir de l'Exemple 1 */
caslib _all_ assign;
proc casutil;
load data=work.my_data outcaslib='casuser' casout='my_cas_data' replace;
run;
proc datametrics data=casuser.my_cas_data out=casuser.cas_metrics
frequencies=5 minmax=3 threads=2;
identities qkb='/sas/dqc/QKBLoc' locale='ENUSA' def='Field Content';
variables name address city;
run;
proc print data=casuser.cas_metrics;
title "Métriques via DATAMETRICS sur CAS";
run;
1
/* Assurez-vous que work.my_data est déjà créé à partir de l'Exemple 1 */
Ce matériel est fourni "tel quel" par We Are Cas. Il n'y a aucune garantie, expresse ou implicite, quant à la qualité marchande ou à l'adéquation à un usage particulier concernant le matériel ou le code contenu dans les présentes. We Are Cas n'est pas responsable des erreurs dans ce matériel tel qu'il existe maintenant ou existera, et We Are Cas ne fournit pas de support technique pour celui-ci.
SAS et tous les autres noms de produits ou de services de SAS Institute Inc. sont des marques déposées ou des marques de commerce de SAS Institute Inc. aux États-Unis et dans d'autres pays. ® indique un enregistrement aux États-Unis. WeAreCAS est un site communautaire indépendant et n'est pas affilié à SAS Institute Inc.
Ce site utilise des cookies techniques et analytiques pour améliorer votre expérience.
En savoir plus.