Die DATAMETRICS-Prozedur ermöglicht eine schnelle und effiziente Datenprofilierung. Durch einfache Angabe einer Eingabe- und einer Ausgabetabelle werden Metriken für alle vorhandenen Variablen automatisch generiert. Dies umfasst die Erkennung potenzieller Identitäten, fehlender Werte, Datenformate und anderer wesentlicher Indikatoren zur Bewertung der Datenqualität. Das Fehlen der 'IDENTITIES'-Anweisung bedeutet, dass keine spezifische Identifikationsanalyse durchgeführt wird und die Standardoptionen für alle Berechnungen verwendet werden.
Datenanalyse
Type : CREATION_INTERNE
Die Beispiele verwenden generierte Daten (Datalines), um Autonomie und Reproduzierbarkeit zu gewährleisten.
1 Codeblock
PROC DATAMETRICS Data
Erklärung : Dieses Beispiel zeigt die einfachste Verwendung von PROC DATAMETRICS. Eine Eingabetabelle 'my_data' wird mit Inline-Daten erstellt. Die Prozedur wird dann ausgeführt, indem nur die Eingabetabelle und eine Ausgabetabelle ('my_results') angegeben werden. Standardmäßig werden Datenqualitätsmetriken für alle Variablen in 'my_data' generiert. Die 'proc print'-Anweisung zeigt die Ergebnisse zur Überprüfung an.
Kopiert!
data my_data;
input ID $ Name $ Age Score;
datalines;
001 John 30 95
002 Jane 24 88
003 Mike . 72
004 Jane 24 88
005 Chris 45 60
006 John 30 95
007 Sarah 29 .
;
run;
proc datametrics data=my_data out=my_results;
run;
proc print data=my_results;
title 'Résultats Basiques de PROC DATAMETRICS';
run;
1
DATA my_data;
2
INPUT ID $ Name $ Age Score;
3
DATALINES;
4
001 John 3095
5
002 Jane 2488
6
003 Mike . 72
7
004 Jane 2488
8
005 Chris 4560
9
006 John 3095
10
007 Sarah 29 .
11
;
12
RUN;
13
14
PROC DATAMETRICSDATA=my_data out=my_results;
15
RUN;
16
17
PROC PRINTDATA=my_results;
18
title 'Résultats Basiques de PROC DATAMETRICS';
19
RUN;
2 Codeblock
PROC DATAMETRICS Data
Erklärung : Dieses Beispiel verwendet die 'VARIABLES'-Klausel, um die Spalten anzugeben, für die Metriken generiert werden sollen (EmployeeID, Name, Department, Salary). Die Option 'OUTPUT METRIC=ALL' wird verwendet, um alle verfügbaren Metriken anzufordern. Dies ermöglicht eine gezieltere Analyse der für den Benutzer relevanten Datenqualitätsaspekte.
Kopiert!
data employees;
input EmployeeID Name $ Department $ Salary DateOfHire:yymmdd10.;
format DateOfHire yymmdd10.;
datalines;
101 Alice Sales 60000 2020-01-15
102 Bob Marketing 75000 2019-03-22
103 Alice Sales 60000 2020-01-15
104 Charlie IT 80000 2021-07-01
105 David Sales 62000 2020-01-15
;
run;
proc datametrics data=employees out=employee_metrics;
variables EmployeeID Name Department Salary;
output metric=ALL;
run;
proc print data=employee_metrics;
title 'Métriques de Qualité pour Variables Spécifiques';
run;
1
DATA employees;
2
INPUT EmployeeID Name $ Department $ Salary DateOfHire:yymmdd10.;
title 'Métriques de Qualité pour Variables Spécifiques';
20
RUN;
3 Codeblock
PROC DATAMETRICS Data
Erklärung : Dieses erweiterte Szenario zeigt die Erkennung potenzieller Identitäten und die Analyse von Metriken für spezifische Variablen. Die 'IDENTITIES'-Anweisung wird verwendet, um Spalten (TransactionID, CustomerID, ProductID) zu identifizieren, die eindeutige Werte oder wichtige Duplikate enthalten könnten. Die 'VARIABLES'-Klausel konzentriert sich auf 'Quantity' und 'Price'. 'OUTPUT METRIC=ALL OUTALL' fordert alle Metriken an und fügt die berechneten Metriken der Ausgabetabelle hinzu, wodurch der ursprüngliche Datensatz mit Qualitätsinformationen angereichert wird.
title 'Analyse Avancée des Métriques et Identités de Transactions';
21
RUN;
4 Codeblock
PROC DATAMETRICS (CAS) Data
Erklärung : Dieses Beispiel passt die Verwendung von PROC DATAMETRICS an eine SAS Viya-Umgebung mit der Cloud Analytic Services (CAS)-Engine an. Es beginnt mit dem Aufbau einer CAS-Sitzung und dem Laden der 'sales_data'-Tabelle in den verteilten CAS-Speicher ('mycas'-Bibliothek). Anschließend wird PROC DATAMETRICS mit der CAS-Tabelle als Eingabe ausgeführt und die Ausgabe in eine neue CAS-Tabelle geleitet. Die Verwendung von CAS ermöglicht die effizientere und verteiltere Verarbeitung großer Datenmengen. Die Ergebnisse werden dann angezeigt. Die CAS-Sitzung wird am Ende beendet.
Kopiert!
/* Connexion à la session CAS et chargement des données */
cas;
libname mycas cas;
data mycas.sales_data;
input SaleID $ Region $ Amount Date:yymmdd10.;
format Date yymmdd10.;
datalines;
S001 East 1200.50 2024-01-10
S002 West 850.25 2024-01-11
S003 North 1500.00 2024-01-10
S004 South 980.75 2024-01-12
S005 East . 1000.00 2024-01-13
;
run;
/* Exécution de PROC DATAMETRICS sur CAS */
proc datametrics data=mycas.sales_data out=mycas.sales_metrics;
variables SaleID Region Amount Date;
output metric=ALL;
run;
/* Affichage des résultats depuis CAS */
proc print data=mycas.sales_metrics;
title 'Métriques de Qualité des Données de Ventes (CAS)';
run;
/* Arrêt de la session CAS */
cas term;
1
/* Connexion à la session CAS et chargement des données */
title 'Métriques de Qualité des Données de Ventes (CAS)';
26
RUN;
27
28
/* Arrêt de la session CAS */
29
cas term;
Dieses Material wird von We Are Cas "wie besehen" zur Verfügung gestellt. Es gibt keine ausdrücklichen oder stillschweigenden Garantien hinsichtlich der Marktgängigkeit oder Eignung für einen bestimmten Zweck in Bezug auf die hierin enthaltenen Materialien oder Codes. We Are Cas ist nicht verantwortlich für Fehler in diesem Material, wie es jetzt existiert oder existieren wird, noch bietet We Are Cas technischen Support dafür an.
SAS und alle anderen Produkt- oder Dienstleistungsnamen von SAS Institute Inc. sind eingetragene Marken oder Marken von SAS Institute Inc. in den USA und anderen Ländern. ® zeigt die Registrierung in den USA an. WeAreCAS ist eine unabhängige Community-Site und nicht mit SAS Institute Inc. verbunden.
Diese Website verwendet technische und analytische Cookies, um Ihre Erfahrung zu verbessern.
Mehr erfahren.