Veröffentlicht am :
Datenqualität CREATION_INTERNE

Grundlegende Nutzung von PROC DATAMETRICS

Dieser Code ist auch verfügbar auf: English Español Français
Wartet auf Validierung
Die DATAMETRICS-Prozedur ermöglicht eine schnelle und effiziente Datenprofilierung. Durch einfache Angabe einer Eingabe- und einer Ausgabetabelle werden Metriken für alle vorhandenen Variablen automatisch generiert. Dies umfasst die Erkennung potenzieller Identitäten, fehlender Werte, Datenformate und anderer wesentlicher Indikatoren zur Bewertung der Datenqualität. Das Fehlen der 'IDENTITIES'-Anweisung bedeutet, dass keine spezifische Identifikationsanalyse durchgeführt wird und die Standardoptionen für alle Berechnungen verwendet werden.
Datenanalyse

Type : CREATION_INTERNE


Die Beispiele verwenden generierte Daten (Datalines), um Autonomie und Reproduzierbarkeit zu gewährleisten.

1 Codeblock
PROC DATAMETRICS Data
Erklärung :
Dieses Beispiel zeigt die einfachste Verwendung von PROC DATAMETRICS. Eine Eingabetabelle 'my_data' wird mit Inline-Daten erstellt. Die Prozedur wird dann ausgeführt, indem nur die Eingabetabelle und eine Ausgabetabelle ('my_results') angegeben werden. Standardmäßig werden Datenqualitätsmetriken für alle Variablen in 'my_data' generiert. Die 'proc print'-Anweisung zeigt die Ergebnisse zur Überprüfung an.
Kopiert!
1DATA my_data;
2 INPUT ID $ Name $ Age Score;
3 DATALINES;
4 001 John 30 95
5 002 Jane 24 88
6 003 Mike . 72
7 004 Jane 24 88
8 005 Chris 45 60
9 006 John 30 95
10 007 Sarah 29 .
11 ;
12RUN;
13 
14PROC DATAMETRICS DATA=my_data out=my_results;
15RUN;
16 
17PROC PRINT DATA=my_results;
18 title 'Résultats Basiques de PROC DATAMETRICS';
19RUN;
2 Codeblock
PROC DATAMETRICS Data
Erklärung :
Dieses Beispiel verwendet die 'VARIABLES'-Klausel, um die Spalten anzugeben, für die Metriken generiert werden sollen (EmployeeID, Name, Department, Salary). Die Option 'OUTPUT METRIC=ALL' wird verwendet, um alle verfügbaren Metriken anzufordern. Dies ermöglicht eine gezieltere Analyse der für den Benutzer relevanten Datenqualitätsaspekte.
Kopiert!
1DATA employees;
2 INPUT EmployeeID Name $ Department $ Salary DateOfHire:yymmdd10.;
3 FORMAT DateOfHire yymmdd10.;
4 DATALINES;
5 101 Alice Sales 60000 2020-01-15
6 102 Bob Marketing 75000 2019-03-22
7 103 Alice Sales 60000 2020-01-15
8 104 Charlie IT 80000 2021-07-01
9 105 David Sales 62000 2020-01-15
10 ;
11RUN;
12 
13PROC DATAMETRICS DATA=employees out=employee_metrics;
14 variables EmployeeID Name Department Salary;
15 OUTPUT metric=ALL;
16RUN;
17 
18PROC PRINT DATA=employee_metrics;
19 title 'Métriques de Qualité pour Variables Spécifiques';
20RUN;
3 Codeblock
PROC DATAMETRICS Data
Erklärung :
Dieses erweiterte Szenario zeigt die Erkennung potenzieller Identitäten und die Analyse von Metriken für spezifische Variablen. Die 'IDENTITIES'-Anweisung wird verwendet, um Spalten (TransactionID, CustomerID, ProductID) zu identifizieren, die eindeutige Werte oder wichtige Duplikate enthalten könnten. Die 'VARIABLES'-Klausel konzentriert sich auf 'Quantity' und 'Price'. 'OUTPUT METRIC=ALL OUTALL' fordert alle Metriken an und fügt die berechneten Metriken der Ausgabetabelle hinzu, wodurch der ursprüngliche Datensatz mit Qualitätsinformationen angereichert wird.
Kopiert!
1DATA transactions;
2 INPUT TransactionID CustomerID ProductID $ Quantity Price Date:yymmdd10.;
3 FORMAT Date yymmdd10.;
4 DATALINES;
5 T001 C001 P001 2 15.50 2023-01-05
6 T002 C002 P002 1 10.00 2023-01-05
7 T003 C001 P001 2 15.50 2023-01-05
8 T004 C003 P003 3 25.75 2023-01-06
9 T005 C001 P001 2 15.50 2023-01-05
10 ;
11RUN;
12 
13PROC DATAMETRICS DATA=transactions out=transaction_summary;
14 identities TransactionID CustomerID ProductID;
15 variables Quantity Price;
16 OUTPUT metric=ALL outall;
17RUN;
18 
19PROC PRINT DATA=transaction_summary;
20 title 'Analyse Avancée des Métriques et Identités de Transactions';
21RUN;
4 Codeblock
PROC DATAMETRICS (CAS) Data
Erklärung :
Dieses Beispiel passt die Verwendung von PROC DATAMETRICS an eine SAS Viya-Umgebung mit der Cloud Analytic Services (CAS)-Engine an. Es beginnt mit dem Aufbau einer CAS-Sitzung und dem Laden der 'sales_data'-Tabelle in den verteilten CAS-Speicher ('mycas'-Bibliothek). Anschließend wird PROC DATAMETRICS mit der CAS-Tabelle als Eingabe ausgeführt und die Ausgabe in eine neue CAS-Tabelle geleitet. Die Verwendung von CAS ermöglicht die effizientere und verteiltere Verarbeitung großer Datenmengen. Die Ergebnisse werden dann angezeigt. Die CAS-Sitzung wird am Ende beendet.
Kopiert!
1/* Connexion à la session CAS et chargement des données */
2cas;
3LIBNAME mycas cas;
4 
5DATA mycas.sales_data;
6 INPUT SaleID $ Region $ Amount Date:yymmdd10.;
7 FORMAT Date yymmdd10.;
8 DATALINES;
9 S001 East 1200.50 2024-01-10
10 S002 West 850.25 2024-01-11
11 S003 North 1500.00 2024-01-10
12 S004 South 980.75 2024-01-12
13 S005 East . 1000.00 2024-01-13
14 ;
15RUN;
16 
17/* Exécution de PROC DATAMETRICS sur CAS */
18PROC DATAMETRICS DATA=mycas.sales_data out=mycas.sales_metrics;
19 variables SaleID Region Amount Date;
20 OUTPUT metric=ALL;
21RUN;
22 
23/* Affichage des résultats depuis CAS */
24PROC PRINT DATA=mycas.sales_metrics;
25 title 'Métriques de Qualité des Données de Ventes (CAS)';
26RUN;
27 
28/* Arrêt de la session CAS */
29cas term;
Dieses Material wird von We Are Cas "wie besehen" zur Verfügung gestellt. Es gibt keine ausdrücklichen oder stillschweigenden Garantien hinsichtlich der Marktgängigkeit oder Eignung für einen bestimmten Zweck in Bezug auf die hierin enthaltenen Materialien oder Codes. We Are Cas ist nicht verantwortlich für Fehler in diesem Material, wie es jetzt existiert oder existieren wird, noch bietet We Are Cas technischen Support dafür an.