Die Beispiele verwenden intern generierte Daten über DATA-Schritte mit DATALINES, wodurch deren Autonomie und Reproduzierbarkeit gewährleistet ist.
1 Codeblock
DATA / PROC DATAMETRICS Data
Erklärung : Dieses Beispiel initialisiert einen 'my_data'-Datensatz mit Dummy-Informationen (Name, Adresse, Stadt, Bundesland). Anschließend wird die PROC DATAMETRICS-Prozedur mit den minimal erforderlichen Parametern ausgeführt, um Datenqualitätsmetriken für die Variablen 'name' und 'address' zu berechnen. Die Ergebnisse werden in der Tabelle 'basic_metrics' gespeichert.
Kopiert!
data work.my_data;
length name $30 address $50 city $20 state $2;
input name $ address $ city $ state $;
datalines;
"John Doe" "123 Main St" "Anytown" "NY"
"Jane Smith" "456 Oak Ave" "Anycity" "CA"
"John Doe" "123 Main St" "Anytown" "NY"
"Peter Jones" "789 Pine Ln" "Otherville" "TX"
"Alice Brown" "101 Maple Dr" "Anytown" "NY"
"Bob White" "202 Elm St" "Otherville" "TX"
"Charlie Green" "303 Cedar Rd" "Anycity" "CA"
"David Black" "404 Birch Ct" "Anytown" "NY"
;
run;
proc datametrics data=work.my_data out=work.basic_metrics;
variables name address;
run;
proc print data=work.basic_metrics;
title "Métriques Basiques pour Nom et Adresse";
run;
Erklärung : Basierend auf den Daten des vorherigen Beispiels verwendet dieses Beispiel gängige Optionen: 'frequencies=10' für die 10 häufigsten Werte, 'minmax=5' für 5 minimale und maximale Werte und 'median' zur Berechnung des Medians. Die 'identities'-Anweisung wird verwendet, um eine Quality Knowledge Base (QKB) zu integrieren, die spezifisch für das Gebietsschema 'ENUSA' und die Definition 'Field Content' ist, um die Identifikationsanalyse zu bereichern.
Kopiert!
/* Assurez-vous que work.my_data est déjà créé à partir de l'Exemple 1 */
proc datametrics data=work.my_data out=work.common_metrics frequencies=10
minmax=5 median;
identities qkb='/sas/dqc/QKBLoc' locale='ENUSA' def='Field Content';
variables name address city;
run;
proc print data=work.common_metrics;
title "Métriques avec Fréquences, Min/Max, Médiane et QKB";
run;
1
/* Assurez-vous que work.my_data est déjà créé à partir de l'Exemple 1 */
title "Métriques avec Fréquences, Min/Max, Médiane et QKB";
11
RUN;
3 Codeblock
PROC FORMAT / DATA / PROC DATAMETRICS
Erklärung : Dieses Beispiel führt ein benutzerdefiniertes Format für die Variable 'state' ein und wendet dieses Format dann auf einen neuen Datensatz 'formatted_data' an. PROC DATAMETRICS wird anschließend auf dieser formatierten Tabelle ausgeführt. Die Optionen 'frequencies', 'minmax' und 'threads=4' werden für die parallele Verarbeitung verwendet. Die Option 'multiidentity' in der 'identities'-Anweisung ermöglicht die Analyse mehrerer Datenqualitätsidentitäten für die angegebenen Variablen.
Kopiert!
/* Assurez-vous que work.my_data est déjà créé à partir de l'Exemple 1 */
proc format;
value $statefmt
'NY'='New York'
'CA'='California'
'TX'='Texas'
other='Autre';
run;
data work.formatted_data;
set work.my_data;
format state $statefmt.;
run;
proc datametrics data=work.formatted_data out=work.advanced_metrics
frequencies=20 minmax=10 threads=4 format;
identities qkb='/sas/dqc/QKBLoc' locale='ENUSA'
def='Field Content' multiidentity;
variables name address city state;
run;
proc print data=work.advanced_metrics;
title "Métriques Avancées avec Formats, Threads et Multi-identités";
run;
1
/* Assurez-vous que work.my_data est déjà créé à partir de l'Exemple 1 */
title "Métriques Avancées avec Formats, Threads et Multi-identités";
25
RUN;
4 Codeblock
CASLIB / PROC CASUTIL / PROC DATAMETRICS
Erklärung : Dieses Beispiel demonstriert die Integration mit der SAS Viya Cloud Analytic Services (CAS) Umgebung. Der Datensatz 'my_data' wird zuerst mit PROC CASUTIL in eine CAS-Bibliothek ('casuser.my_cas_data') geladen. Anschließend wird PROC DATAMETRICS direkt auf der In-Memory CAS-Tabelle ausgeführt. Optionen wie 'frequencies', 'minmax' und 'threads' werden angewendet, um die Metrikenanalyse in einer verteilten Umgebung zu optimieren. Die Ergebnisse werden ebenfalls in einer CAS-Tabelle gespeichert.
Kopiert!
/* Assurez-vous que work.my_data est déjà créé à partir de l'Exemple 1 */
caslib _all_ assign;
proc casutil;
load data=work.my_data outcaslib='casuser' casout='my_cas_data' replace;
run;
proc datametrics data=casuser.my_cas_data out=casuser.cas_metrics
frequencies=5 minmax=3 threads=2;
identities qkb='/sas/dqc/QKBLoc' locale='ENUSA' def='Field Content';
variables name address city;
run;
proc print data=casuser.cas_metrics;
title "Métriques via DATAMETRICS sur CAS";
run;
1
/* Assurez-vous que work.my_data est déjà créé à partir de l'Exemple 1 */
Dieses Material wird von We Are Cas "wie besehen" zur Verfügung gestellt. Es gibt keine ausdrücklichen oder stillschweigenden Garantien hinsichtlich der Marktgängigkeit oder Eignung für einen bestimmten Zweck in Bezug auf die hierin enthaltenen Materialien oder Codes. We Are Cas ist nicht verantwortlich für Fehler in diesem Material, wie es jetzt existiert oder existieren wird, noch bietet We Are Cas technischen Support dafür an.
SAS und alle anderen Produkt- oder Dienstleistungsnamen von SAS Institute Inc. sind eingetragene Marken oder Marken von SAS Institute Inc. in den USA und anderen Ländern. ® zeigt die Registrierung in den USA an. WeAreCAS ist eine unabhängige Community-Site und nicht mit SAS Institute Inc. verbunden.
Diese Website verwendet technische und analytische Cookies, um Ihre Erfahrung zu verbessern.
Mehr erfahren.