Veröffentlicht am :
Datenqualität CREATION_INTERNE

PROC DATAMETRICS: Erweiterte Datenqualitätsanalyse

Dieser Code ist auch verfügbar auf: English Español
Wartet auf Validierung
Die DATAMETRICS-Prozedur ist ein leistungsstarkes Werkzeug zur Datenqualitätsbewertung. Diese detaillierte Funktionsanalyse zeigt, wie die Prozedur mit einer vollständigen Reihe von Parametern konfiguriert wird. Sie behandelt die Extraktion statistischer Metriken wie den Median, die Bestimmung der häufigsten Werte (Häufigkeiten), die Identifizierung von Extremwerten (Minmax) und die Verwendung von Datenformaten für relevantere Analysen. Besonderes Augenmerk wird auf die Integration der Quality Knowledge Base (QKB) für fortgeschrittene Identitätsanalysen sowie auf die Leistungsoptimierung über den Parameter 'threads' gelegt. Das letzte Beispiel demonstriert die Ausführung der Prozedur auf einer im Speicher geladenen Tabelle innerhalb der SAS© Viya CAS-Umgebung.
Datenanalyse

Type : CREATION_INTERNE


Die Beispiele verwenden intern generierte Daten über DATA-Schritte mit DATALINES, wodurch deren Autonomie und Reproduzierbarkeit gewährleistet ist.

1 Codeblock
DATA / PROC DATAMETRICS Data
Erklärung :
Dieses Beispiel initialisiert einen 'my_data'-Datensatz mit Dummy-Informationen (Name, Adresse, Stadt, Bundesland). Anschließend wird die PROC DATAMETRICS-Prozedur mit den minimal erforderlichen Parametern ausgeführt, um Datenqualitätsmetriken für die Variablen 'name' und 'address' zu berechnen. Die Ergebnisse werden in der Tabelle 'basic_metrics' gespeichert.
Kopiert!
1DATA work.my_data;
2 LENGTH name $30 address $50 city $20 state $2;
3 INPUT name $ address $ city $ state $;
4 DATALINES;
5"John Doe" "123 Main St" "Anytown" "NY"
6"Jane Smith" "456 Oak Ave" "Anycity" "CA"
7"John Doe" "123 Main St" "Anytown" "NY"
8"Peter Jones" "789 Pine Ln" "Otherville" "TX"
9"Alice Brown" "101 Maple Dr" "Anytown" "NY"
10"Bob White" "202 Elm St" "Otherville" "TX"
11"Charlie Green" "303 Cedar Rd" "Anycity" "CA"
12"David Black" "404 Birch Ct" "Anytown" "NY"
13;
14RUN;
15 
16PROC DATAMETRICS DATA=work.my_data out=work.basic_metrics;
17 variables name address;
18 RUN;
19 
20PROC PRINT DATA=work.basic_metrics;
21 title "Métriques Basiques pour Nom et Adresse";
22RUN;
2 Codeblock
PROC DATAMETRICS
Erklärung :
Basierend auf den Daten des vorherigen Beispiels verwendet dieses Beispiel gängige Optionen: 'frequencies=10' für die 10 häufigsten Werte, 'minmax=5' für 5 minimale und maximale Werte und 'median' zur Berechnung des Medians. Die 'identities'-Anweisung wird verwendet, um eine Quality Knowledge Base (QKB) zu integrieren, die spezifisch für das Gebietsschema 'ENUSA' und die Definition 'Field Content' ist, um die Identifikationsanalyse zu bereichern.
Kopiert!
1/* Assurez-vous que work.my_data est déjà créé à partir de l'Exemple 1 */
2 
3PROC DATAMETRICS DATA=work.my_data out=work.common_metrics frequencies=10
4 minmax=5 median;
5 identities qkb='/sas/dqc/QKBLoc' locale='ENUSA' def='Field Content';
6 variables name address city;
7 RUN;
8 
9PROC PRINT DATA=work.common_metrics;
10 title "Métriques avec Fréquences, Min/Max, Médiane et QKB";
11RUN;
3 Codeblock
PROC FORMAT / DATA / PROC DATAMETRICS
Erklärung :
Dieses Beispiel führt ein benutzerdefiniertes Format für die Variable 'state' ein und wendet dieses Format dann auf einen neuen Datensatz 'formatted_data' an. PROC DATAMETRICS wird anschließend auf dieser formatierten Tabelle ausgeführt. Die Optionen 'frequencies', 'minmax' und 'threads=4' werden für die parallele Verarbeitung verwendet. Die Option 'multiidentity' in der 'identities'-Anweisung ermöglicht die Analyse mehrerer Datenqualitätsidentitäten für die angegebenen Variablen.
Kopiert!
1/* Assurez-vous que work.my_data est déjà créé à partir de l'Exemple 1 */
2 
3PROC FORMAT;
4 value $statefmt
5 'NY'='New York'
6 'CA'='California'
7 'TX'='Texas'
8 other='Autre';
9RUN;
10 
11DATA work.formatted_data;
12 SET work.my_data;
13 FORMAT state $statefmt.;
14RUN;
15 
16PROC DATAMETRICS DATA=work.formatted_data out=work.advanced_metrics
17 frequencies=20 minmax=10 threads=4 FORMAT;
18 identities qkb='/sas/dqc/QKBLoc' locale='ENUSA'
19 def='Field Content' multiidentity;
20 variables name address city state;
21 RUN;
22 
23PROC PRINT DATA=work.advanced_metrics;
24 title "Métriques Avancées avec Formats, Threads et Multi-identités";
25RUN;
4 Codeblock
CASLIB / PROC CASUTIL / PROC DATAMETRICS
Erklärung :
Dieses Beispiel demonstriert die Integration mit der SAS Viya Cloud Analytic Services (CAS) Umgebung. Der Datensatz 'my_data' wird zuerst mit PROC CASUTIL in eine CAS-Bibliothek ('casuser.my_cas_data') geladen. Anschließend wird PROC DATAMETRICS direkt auf der In-Memory CAS-Tabelle ausgeführt. Optionen wie 'frequencies', 'minmax' und 'threads' werden angewendet, um die Metrikenanalyse in einer verteilten Umgebung zu optimieren. Die Ergebnisse werden ebenfalls in einer CAS-Tabelle gespeichert.
Kopiert!
1/* Assurez-vous que work.my_data est déjà créé à partir de l'Exemple 1 */
2 
3caslib _all_ assign;
4 
5PROC CASUTIL;
6 load DATA=work.my_data outcaslib='casuser' casout='my_cas_data' replace;
7RUN;
8 
9PROC DATAMETRICS DATA=casuser.my_cas_data out=casuser.cas_metrics
10 frequencies=5 minmax=3 threads=2;
11 identities qkb='/sas/dqc/QKBLoc' locale='ENUSA' def='Field Content';
12 variables name address city;
13 RUN;
14 
15PROC PRINT DATA=casuser.cas_metrics;
16 title "Métriques via DATAMETRICS sur CAS";
17RUN;
Dieses Material wird von We Are Cas "wie besehen" zur Verfügung gestellt. Es gibt keine ausdrücklichen oder stillschweigenden Garantien hinsichtlich der Marktgängigkeit oder Eignung für einen bestimmten Zweck in Bezug auf die hierin enthaltenen Materialien oder Codes. We Are Cas ist nicht verantwortlich für Fehler in diesem Material, wie es jetzt existiert oder existieren wird, noch bietet We Are Cas technischen Support dafür an.