Veröffentlicht am :
Datenqualität CREATION_INTERNE

PROC DATAMETRICS: Erweiterte Datenqualitätsanalyse

Dieser Code ist auch verfügbar auf: Deutsch English Español Français
Wartet auf Validierung
Die DATAMETRICS Prozedur ist ein leistungsstarkes Werkzeug zur Bewertung der Datenqualität. Diese detaillierte Funktionsanalyse zeigt, wie die Prozedur mit einer vollständigen Palette von Parametern konfiguriert wird. Sie deckt die Extraktion statistischer Metriken wie den Median, die Bestimmung der häufigsten Werte (frequencies), die Identifizierung extremer Werte (minmax) und die Verwendung von Datenformaten für eine relevantere Analyse ab. Besonderes Augenmerk wird auf die Integration der Quality Knowledge Base (QKB) für fortgeschrittene Identitätsanalysen sowie auf die Leistungsoptimierung über den Parameter 'threads' gelegt. Das letzte Beispiel zeigt eine Ausführung der Prozedur auf einer im CAS-SAS© Viya-Umgebung in den Speicher geladenen Tabelle.
Datenanalyse

Type : CREATION_INTERNE


Die Beispiele verwenden intern generierte Daten über DATA-Steps mit DATALINES, wodurch ihre Autonomie und Reproduzierbarkeit gewährleistet ist.

1 Codeblock
DATA / PROC DATAMETRICS Data
Erklärung :
Dieses Beispiel initialisiert einen Datensatz 'my_data' mit fiktiven Informationen (Name, Adresse, Stadt, Bundesland). Anschließend wird die Prozedur PROC DATAMETRICS mit den minimal erforderlichen Parametern ausgeführt, um Datenqualitätsmetriken für die Variablen 'name' und 'address' zu berechnen. Die Ergebnisse werden in der Tabelle 'basic_metrics' gespeichert.
Kopiert!
1DATA work.my_data;
2 LENGTH name $30 address $50 city $20 state $2;
3 INPUT name $ address $ city $ state $;
4 DATALINES;
5"John Doe" "123 Main St" "Anytown" "NY"
6"Jane Smith" "456 Oak Ave" "Anycity" "CA"
7"John Doe" "123 Main St" "Anytown" "NY"
8"Peter Jones" "789 Pine Ln" "Otherville" "TX"
9"Alice Brown" "101 Maple Dr" "Anytown" "NY"
10"Bob White" "202 Elm St" "Otherville" "TX"
11"Charlie Green" "303 Cedar Rd" "Anycity" "CA"
12"David Black" "404 Birch Ct" "Anytown" "NY"
13;
14RUN;
15 
16PROC DATAMETRICS DATA=work.my_data out=work.basic_metrics;
17 variables name address;
18 RUN;
19 
20PROC PRINT DATA=work.basic_metrics;
21 title "Grundlegende Metriken für Name und Adresse";
22RUN;
2 Codeblock
PROC DATAMETRICS
Erklärung :
Basierend auf den Daten des vorherigen Beispiels verwendet dieses Beispiel gängige Optionen: 'frequencies=10' für die 10 häufigsten Werte, 'minmax=5' für 5 minimale und maximale Werte und 'median' zur Berechnung des Medians. Die Anweisung 'identities' wird verwendet, um eine spezifische Quality Knowledge Base (QKB) für den Standort 'ENUSA' und die Definition 'Field Content' zu integrieren, um die Identifizierungsanalyse zu erweitern.
Kopiert!
1/* Assurez-vous que work.my_data est déjà créé à partir de l'Exemple 1 */
2 
3PROC DATAMETRICS DATA=work.my_data out=work.common_metrics frequencies=10
4 minmax=5 median;
5 identities qkb='/sas/dqc/QKBLoc' locale='ENUSA' def='Field Content';
6 variables name address city;
7 RUN;
8 
9PROC PRINT DATA=work.common_metrics;
10 title "Metriken mit Häufigkeiten, Min/Max, Median und QKB";
11RUN;
3 Codeblock
PROC FORMAT / DATA / PROC DATAMETRICS
Erklärung :
Dieses Beispiel führt ein benutzerdefiniertes Format für die Variable 'state' ein und wendet dieses Format dann auf einen neuen Datensatz 'formatted_data' an. PROC DATAMETRICS wird anschließend auf dieser formatierten Tabelle ausgeführt. Die Optionen 'frequencies', 'minmax' und 'threads=4' werden für die parallele Verarbeitung verwendet. Die Option 'multiidentity' in der Anweisung 'identities' ermöglicht die Analyse mehrerer Datenqualitätsidentitäten für die angegebenen Variablen.
Kopiert!
1/* Assurez-vous que work.my_data est déjà créé à partir de l'Exemple 1 */
2 
3PROC FORMAT;
4 value $statefmt
5 'NY'='New York'
6 'CA'='California'
7 'TX'='Texas'
8 other='Autre';
9RUN;
10 
11DATA work.formatted_data;
12 SET work.my_data;
13 FORMAT state $statefmt.;
14RUN;
15 
16PROC DATAMETRICS DATA=work.formatted_data out=work.advanced_metrics
17 frequencies=20 minmax=10 threads=4 FORMAT;
18 identities qkb='/sas/dqc/QKBLoc' locale='ENUSA'
19 def='Field Content' multiidentity;
20 variables name address city state;
21 RUN;
22 
23PROC PRINT DATA=work.advanced_metrics;
24 title "Erweiterte Metriken mit Formaten, Threads und Multi-Identitäten";
25RUN;
4 Codeblock
CASLIB / PROC CASUTIL / PROC DATAMETRICS
Erklärung :
Dieses Beispiel demonstriert die Integration mit der Cloud Analytic Services (CAS)-Umgebung von SAS Viya. Der Datensatz 'my_data' wird zuerst mit PROC CASUTIL in eine CAS-Bibliothek ('casuser.my_cas_data') geladen. Anschließend wird PROC DATAMETRICS direkt auf der im Speicher befindlichen CAS-Tabelle ausgeführt. Optionen wie 'frequencies', 'minmax' und 'threads' werden angewendet, um die Analyse der Metriken in einer verteilten Umgebung zu optimieren. Die Ergebnisse werden ebenfalls in einer CAS-Tabelle gespeichert.
Kopiert!
1/* Assurez-vous que work.my_data est déjà créé à partir de l'Exemple 1 */
2 
3caslib _all_ assign;
4 
5PROC CASUTIL;
6 load DATA=work.my_data outcaslib='casuser' casout='my_cas_data' replace;
7RUN;
8 
9PROC DATAMETRICS DATA=casuser.my_cas_data out=casuser.cas_metrics
10 frequencies=5 minmax=3 threads=2;
11 identities qkb='/sas/dqc/QKBLoc' locale='ENUSA' def='Field Content';
12 variables name address city;
13 RUN;
14 
15PROC PRINT DATA=casuser.cas_metrics;
16 title "Metriken über DATAMETRICS auf CAS";
17RUN;
Dieses Material wird von We Are Cas "wie besehen" zur Verfügung gestellt. Es gibt keine ausdrücklichen oder stillschweigenden Garantien hinsichtlich der Marktgängigkeit oder Eignung für einen bestimmten Zweck in Bezug auf die hierin enthaltenen Materialien oder Codes. We Are Cas ist nicht verantwortlich für Fehler in diesem Material, wie es jetzt existiert oder existieren wird, noch bietet We Are Cas technischen Support dafür an.