Die Beispiele verwenden intern generierte Daten über DATA-Steps mit DATALINES, wodurch ihre Autonomie und Reproduzierbarkeit gewährleistet ist.
1 Codeblock
DATA / PROC DATAMETRICS Data
Erklärung : Dieses Beispiel initialisiert einen Datensatz 'my_data' mit fiktiven Informationen (Name, Adresse, Stadt, Bundesland). Anschließend wird die Prozedur PROC DATAMETRICS mit den minimal erforderlichen Parametern ausgeführt, um Datenqualitätsmetriken für die Variablen 'name' und 'address' zu berechnen. Die Ergebnisse werden in der Tabelle 'basic_metrics' gespeichert.
Kopiert!
data work.my_data;
length name $30 address $50 city $20 state $2;
input name $ address $ city $ state $;
datalines;
"John Doe" "123 Main St" "Anytown" "NY"
"Jane Smith" "456 Oak Ave" "Anycity" "CA"
"John Doe" "123 Main St" "Anytown" "NY"
"Peter Jones" "789 Pine Ln" "Otherville" "TX"
"Alice Brown" "101 Maple Dr" "Anytown" "NY"
"Bob White" "202 Elm St" "Otherville" "TX"
"Charlie Green" "303 Cedar Rd" "Anycity" "CA"
"David Black" "404 Birch Ct" "Anytown" "NY"
;
run;
proc datametrics data=work.my_data out=work.basic_metrics;
variables name address;
run;
proc print data=work.basic_metrics;
title "Grundlegende Metriken für Name und Adresse";
run;
title "Grundlegende Metriken für Name und Adresse";
22
RUN;
2 Codeblock
PROC DATAMETRICS
Erklärung : Basierend auf den Daten des vorherigen Beispiels verwendet dieses Beispiel gängige Optionen: 'frequencies=10' für die 10 häufigsten Werte, 'minmax=5' für 5 minimale und maximale Werte und 'median' zur Berechnung des Medians. Die Anweisung 'identities' wird verwendet, um eine spezifische Quality Knowledge Base (QKB) für den Standort 'ENUSA' und die Definition 'Field Content' zu integrieren, um die Identifizierungsanalyse zu erweitern.
Kopiert!
/* Assurez-vous que work.my_data est déjà créé à partir de l'Exemple 1 */
proc datametrics data=work.my_data out=work.common_metrics frequencies=10
minmax=5 median;
identities qkb='/sas/dqc/QKBLoc' locale='ENUSA' def='Field Content';
variables name address city;
run;
proc print data=work.common_metrics;
title "Metriken mit Häufigkeiten, Min/Max, Median und QKB";
run;
1
/* Assurez-vous que work.my_data est déjà créé à partir de l'Exemple 1 */
title "Metriken mit Häufigkeiten, Min/Max, Median und QKB";
11
RUN;
3 Codeblock
PROC FORMAT / DATA / PROC DATAMETRICS
Erklärung : Dieses Beispiel führt ein benutzerdefiniertes Format für die Variable 'state' ein und wendet dieses Format dann auf einen neuen Datensatz 'formatted_data' an. PROC DATAMETRICS wird anschließend auf dieser formatierten Tabelle ausgeführt. Die Optionen 'frequencies', 'minmax' und 'threads=4' werden für die parallele Verarbeitung verwendet. Die Option 'multiidentity' in der Anweisung 'identities' ermöglicht die Analyse mehrerer Datenqualitätsidentitäten für die angegebenen Variablen.
Kopiert!
/* Assurez-vous que work.my_data est déjà créé à partir de l'Exemple 1 */
proc format;
value $statefmt
'NY'='New York'
'CA'='California'
'TX'='Texas'
other='Autre';
run;
data work.formatted_data;
set work.my_data;
format state $statefmt.;
run;
proc datametrics data=work.formatted_data out=work.advanced_metrics
frequencies=20 minmax=10 threads=4 format;
identities qkb='/sas/dqc/QKBLoc' locale='ENUSA'
def='Field Content' multiidentity;
variables name address city state;
run;
proc print data=work.advanced_metrics;
title "Erweiterte Metriken mit Formaten, Threads und Multi-Identitäten";
run;
1
/* Assurez-vous que work.my_data est déjà créé à partir de l'Exemple 1 */
title "Erweiterte Metriken mit Formaten, Threads und Multi-Identitäten";
25
RUN;
4 Codeblock
CASLIB / PROC CASUTIL / PROC DATAMETRICS
Erklärung : Dieses Beispiel demonstriert die Integration mit der Cloud Analytic Services (CAS)-Umgebung von SAS Viya. Der Datensatz 'my_data' wird zuerst mit PROC CASUTIL in eine CAS-Bibliothek ('casuser.my_cas_data') geladen. Anschließend wird PROC DATAMETRICS direkt auf der im Speicher befindlichen CAS-Tabelle ausgeführt. Optionen wie 'frequencies', 'minmax' und 'threads' werden angewendet, um die Analyse der Metriken in einer verteilten Umgebung zu optimieren. Die Ergebnisse werden ebenfalls in einer CAS-Tabelle gespeichert.
Kopiert!
/* Assurez-vous que work.my_data est déjà créé à partir de l'Exemple 1 */
caslib _all_ assign;
proc casutil;
load data=work.my_data outcaslib='casuser' casout='my_cas_data' replace;
run;
proc datametrics data=casuser.my_cas_data out=casuser.cas_metrics
frequencies=5 minmax=3 threads=2;
identities qkb='/sas/dqc/QKBLoc' locale='ENUSA' def='Field Content';
variables name address city;
run;
proc print data=casuser.cas_metrics;
title "Metriken über DATAMETRICS auf CAS";
run;
1
/* Assurez-vous que work.my_data est déjà créé à partir de l'Exemple 1 */
Dieses Material wird von We Are Cas "wie besehen" zur Verfügung gestellt. Es gibt keine ausdrücklichen oder stillschweigenden Garantien hinsichtlich der Marktgängigkeit oder Eignung für einen bestimmten Zweck in Bezug auf die hierin enthaltenen Materialien oder Codes. We Are Cas ist nicht verantwortlich für Fehler in diesem Material, wie es jetzt existiert oder existieren wird, noch bietet We Are Cas technischen Support dafür an.
SAS und alle anderen Produkt- oder Dienstleistungsnamen von SAS Institute Inc. sind eingetragene Marken oder Marken von SAS Institute Inc. in den USA und anderen Ländern. ® zeigt die Registrierung in den USA an. WeAreCAS ist eine unabhängige Community-Site und nicht mit SAS Institute Inc. verbunden.
Diese Website verwendet technische und analytische Cookies, um Ihre Erfahrung zu verbessern.
Mehr erfahren.