Veröffentlicht am :

Analyse und Statistiken mehrerer Daten

Dieser Code ist auch verfügbar auf: English Español Français
Wartet auf Validierung
Das Skript ist in mehrere unabhängige Abschnitte unterteilt. Der erste Abschnitt erstellt ein Dataset 'scoredata' und leitet daraus ein Subset 'subsetscoredata' ab, indem Beobachtungen nach einer Bedingung für 'scorevalues' gefiltert werden. Der zweite Abschnitt initialisiert ein Dataset 'demography', um anschließend Frequenzanalysen für die Variable 'Gender' mit `PROC FREQ` und deskriptive Statistiken für 'Age', 'Weight', 'Height' mit `PROC MEANS` durchzuführen. Der Hauptabschnitt erstellt ein Dataset 'biology' und wendet eine Reihe statistischer Analysen an: Berechnung der Mittelwerte für 'Age', 'Height', 'Weight', dann deskriptive Statistiken gruppiert nach 'Sex', und dann nach 'Year' und 'Sex'. Eine `PROC MEANS` wird speziell verwendet, um die berechneten deskriptiven Statistiken (Mittelwerte, Standardabweichungen, Schiefe, Mediane) in einem neuen Dataset namens 'Stats_biology' zu speichern. Schließlich verwendet das Skript `PROC UNIVARIATE` zur Analyse der Verteilung von 'Height' und `PROC MEANS` mit der Option `maxdec=2` zur Formatierung der statistischen Ausgabe.
Datenanalyse

Type : CREATION_INTERNE


Alle Datasets ('scoredata', 'subsetscoredata', 'demography', 'biology', 'Stats_biology') werden direkt innerhalb des Skripts mit Hilfe von `DATA STEP`-Blöcken mit integrierten `datalines`-Daten erstellt oder von diesen internen Datasets abgeleitet. Für die Ausführung des Skripts werden keine externen Datenquellen (Dateien, Datenbanken) referenziert oder benötigt.

1 Codeblock
DATA STEP Data
Erklärung :
Erstellt ein Dataset namens 'scoredata' mit zwei Variablen, 'A' (Zeichen) und 'Scorevalues' (numerisch), unter Verwendung von Daten, die direkt über `datalines` bereitgestellt werden.
Kopiert!
1DATA scoredata;
2INPUT A $ Scorevalues;
3DATALINES;
4P 77 P 76 P 74 P 72 P 78
5D 80 D 84 D 88 D 87 D 90
6RUN;
2 Codeblock
PROC PRINT
Erklärung :
Zeigt den Inhalt des Datasets 'scoredata' in der Standard-SAS-Ausgabe an.
Kopiert!
1PROC PRINT DATA=scoredata;
3 Codeblock
DATA STEP Data
Erklärung :
Erstellt ein neues Dataset namens 'subsetscoredata' aus 'scoredata', das nur die Beobachtungen enthält, bei denen der Wert von 'Scorevalues' strikt größer als 78 ist.
Kopiert!
1DATA subsetscoredata;
2SET scoredata;
3IF scorevalues>78;
4RUN;
4 Codeblock
PROC PRINT
Erklärung :
Zeigt den Inhalt des Datasets 'subsetscoredata' in der Standard-SAS-Ausgabe an.
Kopiert!
1PROC PRINT DATA=subsetscoredata;
5 Codeblock
DATA STEP Data
Erklärung :
Erstellt ein Dataset namens 'demography' mit Variablen 'Gender' (Zeichen), 'Age', 'Weight' und 'Height' (numerisch), unter Verwendung von Daten, die über `datalines` bereitgestellt werden. Das Statement `title Demography;` definiert einen Titel für die nächsten Prozedurausgaben.
Kopiert!
1*Q4;
2DATA demography;
3INPUT Gender $ Age Weight Height;
4DATALINES;
5M 50 68 155
6F 23 60 165
7M 65 72 180
8F 35 55 154
9M 15 35 158
10RUN;
11title Demography;
6 Codeblock
PROC FREQ
Erklärung :
Berechnet und zeigt die Häufigkeitsverteilung für die Variable 'Gender' des Datasets 'demography' an, wobei die Anzahl und der Prozentsatz der Vorkommen für jede Geschlechtskategorie angegeben werden.
Kopiert!
1PROC FREQ DATA=demography;
2TABLE Gender;
7 Codeblock
PROC MEANS
Erklärung :
Berechnet die grundlegenden deskriptiven Statistiken (N, Mittelwert, Standardabweichung, Minimum, Maximum) für die Variablen 'Age', 'Weight' und 'Height' des Datasets 'demography'.
Kopiert!
1PROC MEANS DATA=demography;
2Var Age Weight height;
8 Codeblock
DATA STEP Data
Erklärung :
Erstellt ein Dataset namens 'biology' mit den Variablen 'Id' (numerisch), 'sex' (Zeichen), 'Age', 'Year', 'Height' und 'Weight' (numerisch), unter Verwendung von Daten, die direkt über `datalines` bereitgestellt werden.
Kopiert!
1*------------------------------------;
2DATA biology;
3INPUT Id sex $ Age Year Height Weight;
4DATALINES;
57389 M 24 4 69.2 132.5
63945 F 19 2 58.5 112.8
74721 F 20 2 65.3 98.6
81835 F 24 4 62.8 102.5
99541 M 21 3 72.5 152.3
102957 M 22 3 67.3 145.8
112158 F 21 2 59.8 104.5
124296 F 25 3 62.5 132.5
134824 M 23 4 74.5 184.4
145736 M 22 3 69.1 149.5
158765 F 19 1 67.3 130.5
165734 F 18 1 64.3 110.2
17RUN;
9 Codeblock
PROC PRINT
Erklärung :
Zeigt den vollständigen Inhalt des Datasets 'biology' in der Standard-SAS-Ausgabe an.
Kopiert!
1PROC PRINT DATA=biology;
2RUN;
10 Codeblock
PROC MEANS
Erklärung :
Berechnet die grundlegenden deskriptiven Statistiken für die Variablen 'Age', 'Height' und 'Weight' des Datasets 'biology'.
Kopiert!
1*Q1) Obtain the means of Age,Height and Weight.;
2PROC MEANS DATA=biology;
3var Age Height Weight;
4RUN;
11 Codeblock
PROC MEANS
Erklärung :
Berechnet die deskriptiven Statistiken für die Variablen 'Age', 'Height' und 'Weight' des Datasets 'biology', gruppiert nach jeder Kategorie der Variable 'Sex'.
Kopiert!
1*Q2) Obtain the Discptive statistics of Age Height and Weight by Gender wise.;
2PROC MEANS DATA=biology;
3var Age Height Weight;
4class Sex;
5RUN;
12 Codeblock
PROC MEANS
Erklärung :
Berechnet die deskriptiven Statistiken für die Variablen 'Age', 'Height' und 'Weight' des Datasets 'biology', gemeinsam gruppiert nach den Variablen 'Year' und 'Sex'.
Kopiert!
1*Q3) Obtain the Discptive statistics of Age Height and Weight by Gender and year wise.;
2PROC MEANS DATA=biology;
3var Age Height Weight;
4class year sex;
13 Codeblock
PROC MEANS Data
Erklärung :
Berechnet die deskriptiven Statistiken (Mittelwerte, Standardabweichungen, Schiefen und Mediane) für die Variablen 'Height' und 'Weight' des Datasets 'biology', gruppiert nach 'Year' und 'Sex'. Die Ergebnisse werden in einem neuen Dataset namens 'Stats_biology' gespeichert.
Kopiert!
1*Q4) store Descriptive statistics in a specific variable.;
2PROC MEANS DATA=biology;
3class year sex;
4OUTPUT out=Stats_biology mean=av_height av_weight std=sd_height sd_weight skewness=sk_height sk_weight median=md_height md_weight;
14 Codeblock
PROC PRINT
Erklärung :
Zeigt den Inhalt des Datasets 'Stats_biology' an, das die von der vorherigen `PROC MEANS` berechneten und gespeicherten deskriptiven Statistiken enthält.
Kopiert!
1PROC PRINT DATA=Stats_biology;
2RUN;
15 Codeblock
PROC UNIVARIATE
Erklärung :
Generiert detaillierte univariater Statistiken, einschließlich Momente, Quantile, Normalitätstests und Grafiken (falls aktiviert), für die Variable 'Height' des Datasets 'biology', um ihre Verteilung zu untersuchen.
Kopiert!
1*Q5) Use univariate command to check the distribution of data.;
2PROC UNIVARIATE DATA=biology;
3var Height;
4RUN;
16 Codeblock
PROC MEANS
Erklärung :
Berechnet die grundlegenden deskriptiven Statistiken für alle numerischen Variablen des Datasets 'biology', wobei die numerischen Ausgaben so formatiert werden, dass maximal zwei Dezimalstellen angezeigt werden, dank der Option `maxdec=2`.
Kopiert!
1*Q6) Use
2proc mean command and get the output upto two decimel;
3PROC MEANS
4DATA=biology maxdec=2;
5RUN;
6 
Dieses Material wird von We Are Cas "wie besehen" zur Verfügung gestellt. Es gibt keine ausdrücklichen oder stillschweigenden Garantien hinsichtlich der Marktgängigkeit oder Eignung für einen bestimmten Zweck in Bezug auf die hierin enthaltenen Materialien oder Codes. We Are Cas ist nicht verantwortlich für Fehler in diesem Material, wie es jetzt existiert oder existieren wird, noch bietet We Are Cas technischen Support dafür an.