Veröffentlicht am :

Datenexploration mit grundlegenden SAS-Prozeduren

Dieser Code ist auch verfügbar auf: English Español Français
Dieses Skript soll dabei helfen, Daten zu verstehen und zu validieren, indem Spaltenattribute und deren Werte analysiert werden. Es verwendet mehrere SAS©-Prozeduren für eine schnelle und einfache Datenexploration: PROC PRINT zur Visualisierung von Beobachtungen, PROC MEANS für zusammenfassende deskriptive Statistiken, PROC UNIVARIATE für detailliertere Statistiken und PROC FREQ zur Erstellung von Häufigkeitstabellen, was ideal ist, um unerwartete oder inkonsistente Werte zu identifizieren und die Datenqualität zu validieren.
Datenanalyse

Type : SASHELP


Die verwendeten Daten stammen aus der internen SASHELP-Bibliothek, speziell die Datensätze `sashelp.class` und `sashelp.cars`.

1 Codeblock
PROC PRINT
Erklärung :
Zeigt den gesamten Datensatz `sashelp.class` an und listet standardmäßig alle Spalten und alle Beobachtungen auf. Nützlich für einen ersten Überblick über die Daten.
Kopiert!
1PROC PRINT DATA=sashelp.class;
2RUN;
2 Codeblock
PROC PRINT
Erklärung :
Zeigt die ersten 10 Beobachtungen (Zeilen) des Datensatzes `sashelp.class` an, wobei die Option `obs=10` verwendet wird, um die Ausgabe zu begrenzen. Dies ermöglicht einen schnellen Überblick, ohne alle Daten anzuzeigen.
Kopiert!
1PROC PRINT DATA=sashelp.class (obs=10);
2RUN;
3 Codeblock
PROC PRINT
Erklärung :
Zeigt die ersten 10 Beobachtungen des Datensatzes `sashelp.cars` an, begrenzt jedoch die angezeigten Spalten auf die in der `VAR`-Anweisung angegebenen Variablen 'Make', 'Model', 'Type' und 'MSRP'.
Kopiert!
1 
2PROC PRINT
3DATA=sashelp.cars (obs=10);
4var make model type msrp;
5RUN;
6 
4 Codeblock
PROC MEANS
Erklärung :
Berechnet zusammenfassende deskriptive Statistiken (standardmäßig: N, Mittelwert, Standardabweichung, Min, Max) für die numerischen Variablen 'enginesize', 'horsepower', 'mpg_city' und 'mpg_highway' des Datensatzes `sashelp.cars`. Ermöglicht die schnelle Identifizierung zentraler Tendenzen und Wertebereiche.
Kopiert!
1 
2PROC MEANS
3DATA=sashelp.cars;
4var enginesize horsepower mpg_city mpg_highway;
5RUN;
6 
5 Codeblock
PROC UNIVARIATE
Erklärung :
Generiert detailliertere deskriptive Statistiken für die numerische Variable 'mpg_highway' des Datensatzes `sashelp.cars`. Dies umfasst Quantile, Normalitätstests, Momente, Informationen zu Extremwerten und Grafiken (falls ausgegeben).
Kopiert!
1 
2PROC UNIVARIATE
3DATA=sashelp.cars;
4var mpg_highway;
5RUN;
6 
6 Codeblock
PROC FREQ
Erklärung :
Erstellt Häufigkeitstabellen für die kategorialen Variablen 'origin', 'type' und 'drivetrain' des Datensatzes `sashelp.cars`. Jede Tabelle zeigt die eindeutigen Werte, ihre Häufigkeit, ihren Prozentsatz sowie kumulierte Häufigkeiten/Prozentsätze. Sehr nützlich für die Datenvalidierung und die Erkennung von Anomalien.
Kopiert!
1 
2PROC FREQ
3DATA=sashelp.cars;
4tables origin type drivetrain;
5RUN;
6 
Dieses Material wird von We Are Cas "wie besehen" zur Verfügung gestellt. Es gibt keine ausdrücklichen oder stillschweigenden Garantien hinsichtlich der Marktgängigkeit oder Eignung für einen bestimmten Zweck in Bezug auf die hierin enthaltenen Materialien oder Codes. We Are Cas ist nicht verantwortlich für Fehler in diesem Material, wie es jetzt existiert oder existieren wird, noch bietet We Are Cas technischen Support dafür an.