Qualité des Données

Profilage de données avec PROC DATAMETRICS (Options d'identité)

Niveau de difficulté
Débutant
Publié le :
Le script commence par charger les fonctionnalités de qualité des données avec `%dqload()`. Il crée ensuite un jeu de données SAS© temporaire nommé `nameSet` à partir de données en ligne (`cards;`). La `PROC DATAMETRICS` est exécutée deux fois. La première exécution profile `nameSet` sans l'option `multi` pour l'identification, produisant `names_multi_false`. La seconde exécution utilise l'option `multi` dans l'instruction `identities`, permettant la détection de plusieurs identités, et génère `names_multi_true`. Les deux appels à `DATAMETRICS` utilisent les options `median` et `threads=2`.
Analyse des données

Type : CREATION_INTERNE


Le jeu de données d'entrée `nameSet` est entièrement créé au sein du script à l'aide d'un bloc `DATA STEP` et de l'instruction `cards;`. Aucune source de données externe (fichiers, bases de données, etc.) n'est directement lue pour la création des données de travail.

1 Bloc de code
Macro SAS
Explication :
Appelle la macro `%dqload()` pour initialiser l'environnement de qualité des données de SAS, chargeant les fonctions et les configurations nécessaires pour les opérations subséquentes de profilage de données, telles que celles utilisées par la `PROC DATAMETRICS`.
Copié !
1%dqload();
2 Bloc de code
DATA STEP Data
Explication :
Ce bloc `DATA STEP` crée un jeu de données temporaire nommé `nameSet` dans la bibliothèque WORK. Il définit deux variables, `id` (numérique) et `names` (caractère), et les peuple avec des données en ligne fournies via l'instruction `cards;`.
Copié !
1DATA nameSet ;
2 INPUT id 1-2 names $ 5-22;
3CARDS;
41 Joan Raggio
52 Alexander Healy
63 Jody Hazlett
74 Brandon Visconti
85 Becky Loui
96 Martha Brockmeier
107 Shirley Espino
118 V Kipp
129 Stacy Stockli
1310 Brittany Delman
1411 Lauren Tellez
1512 Megan Hampu
1613 John Deere
1714 Mary Kay
1815 Krispy Kreme
19;
20RUN;
3 Bloc de code
PROC DATAMETRICS
Explication :
Exécute la procédure `DATAMETRICS` pour analyser le profilage des données du jeu de données `nameSet`. L'option `median` est activée et le traitement est configuré pour utiliser `threads=2`. L'instruction `identities def="Field Content"` spécifie la méthode d'identification sans l'option `multi`, ce qui signifie que le profilage se concentrera sur l'identification d'une seule 'identité' par enregistrement. Les résultats sont sauvegardés dans le jeu de données de sortie `names_multi_false`.
Copié !
1 
2PROC DATAMETRICS
3DATA=nameSet out=names_multi_false median threads=2;
4identities def="Field Content";
5RUN;
6 
4 Bloc de code
PROC DATAMETRICS
Explication :
Seconde exécution de la `PROC DATAMETRICS`, similaire à la précédente, mais incluant l'option `multi` dans l'instruction `identities`. Cette option permet à la procédure de détecter et de rapporter plusieurs identités potentielles par enregistrement dans le champ spécifié ('Field Content'), offrant une analyse de profilage plus approfondie. Les résultats sont sauvegardés dans le jeu de données de sortie `names_multi_true`.
Copié !
1 
2PROC DATAMETRICS
3DATA=nameSet out=names_multi_true median threads=2;
4identities def="Field Content" multi;
5RUN;
6 
Ce matériel est fourni "tel quel" par We Are Cas. Il n'y a aucune garantie, expresse ou implicite, quant à la qualité marchande ou à l'adéquation à un usage particulier concernant le matériel ou le code contenu dans les présentes. We Are Cas n'est pas responsable des erreurs dans ce matériel tel qu'il existe maintenant ou existera, et We Are Cas ne fournit pas de support technique pour celui-ci.

Documentation liée

Aucune documentation spécifique pour cette catégorie.