Analyse und Statistiken mehrerer Daten

Das Skript ist in mehrere unabhängige Abschnitte unterteilt. Der erste Abschnitt erstellt ein Dataset 'scoredata' und leitet daraus ein Subset 'subsetscoredata' ab, indem Beobachtungen nach einer Bedingung für 'scorevalues' gefiltert werden. Der zweite Abschnitt initialisiert ein Dataset 'demography', um anschließend Frequenzanalysen für die Variable 'Gender' mit `PROC FREQ` und deskriptive Statistiken für 'Age', 'Weight', 'Height' mit `PROC MEANS` durchzuführen. Der Hauptabschnitt erstellt ein Dataset 'biology' und wendet eine Reihe statistischer Analysen an: Berechnung der Mittelwerte für 'Age', 'Height', 'Weight', dann deskriptive Statistiken gruppiert nach 'Sex', und dann nach 'Year' und 'Sex'. Eine `PROC MEANS` wird speziell verwendet, um die berechneten deskriptiven Statistiken (Mittelwerte, Standardabweichungen, Schiefe, Mediane) in einem neuen Dataset namens 'Stats_biology' zu speichern. Schließlich verwendet das Skript `PROC UNIVARIATE` zur Analyse der Verteilung von 'Height' und `PROC MEANS` mit der Option `maxdec=2` zur Formatierung der statistischen Ausgabe.

Datenanalyse

Type : CREATION_INTERNE

Alle Datasets ('scoredata', 'subsetscoredata', 'demography', 'biology', 'Stats_biology') werden direkt innerhalb des Skripts mit Hilfe von `DATA STEP`-Blöcken mit integrierten `datalines`-Daten erstellt oder von diesen internen Datasets abgeleitet. Für die Ausführung des Skripts werden keine externen Datenquellen (Dateien, Datenbanken) referenziert oder benötigt.

1 Codeblock

DATA STEP Data

Erklärung :
Erstellt ein Dataset namens 'scoredata' mit zwei Variablen, 'A' (Zeichen) und 'Scorevalues' (numerisch), unter Verwendung von Daten, die direkt über `datalines` bereitgestellt werden.

Kopiert!

1	DATA scoredata;
2	INPUT A $ Scorevalues;
3	DATALINES;
4	P 77 P 76 P 74 P 72 P 78
5	D 80 D 84 D 88 D 87 D 90
6	RUN;

2 Codeblock

PROC PRINT

Erklärung :
Zeigt den Inhalt des Datasets 'scoredata' in der Standard-SAS-Ausgabe an.

Kopiert!

1	PROC PRINT DATA=scoredata;

3 Codeblock

DATA STEP Data

Erklärung :
Erstellt ein neues Dataset namens 'subsetscoredata' aus 'scoredata', das nur die Beobachtungen enthält, bei denen der Wert von 'Scorevalues' strikt größer als 78 ist.

Kopiert!

1	DATA subsetscoredata;
2	SET scoredata;
3	IF scorevalues>78;
4	RUN;

4 Codeblock

PROC PRINT

Erklärung :
Zeigt den Inhalt des Datasets 'subsetscoredata' in der Standard-SAS-Ausgabe an.

Kopiert!

1	PROC PRINT DATA=subsetscoredata;

5 Codeblock

DATA STEP Data

Erklärung :
Erstellt ein Dataset namens 'demography' mit Variablen 'Gender' (Zeichen), 'Age', 'Weight' und 'Height' (numerisch), unter Verwendung von Daten, die über `datalines` bereitgestellt werden. Das Statement `title Demography;` definiert einen Titel für die nächsten Prozedurausgaben.

Kopiert!

1	*Q4;
2	DATA demography;
3	INPUT Gender $ Age Weight Height;
4	DATALINES;
5	M 50 68 155
6	F 23 60 165
7	M 65 72 180
8	F 35 55 154
9	M 15 35 158
10	RUN;
11	title Demography;

6 Codeblock

PROC FREQ

Erklärung :
Berechnet und zeigt die Häufigkeitsverteilung für die Variable 'Gender' des Datasets 'demography' an, wobei die Anzahl und der Prozentsatz der Vorkommen für jede Geschlechtskategorie angegeben werden.

Kopiert!

1	PROC FREQ DATA=demography;
2	TABLE Gender;

7 Codeblock

PROC MEANS

Erklärung :
Berechnet die grundlegenden deskriptiven Statistiken (N, Mittelwert, Standardabweichung, Minimum, Maximum) für die Variablen 'Age', 'Weight' und 'Height' des Datasets 'demography'.

Kopiert!

1	PROC MEANS DATA=demography;
2	Var Age Weight height;

8 Codeblock

DATA STEP Data

Erklärung :
Erstellt ein Dataset namens 'biology' mit den Variablen 'Id' (numerisch), 'sex' (Zeichen), 'Age', 'Year', 'Height' und 'Weight' (numerisch), unter Verwendung von Daten, die direkt über `datalines` bereitgestellt werden.

Kopiert!

1	*------------------------------------;
2	DATA biology;
3	INPUT Id sex $ Age Year Height Weight;
4	DATALINES;
5	7389 M 24 4 69.2 132.5
6	3945 F 19 2 58.5 112.8
7	4721 F 20 2 65.3 98.6
8	1835 F 24 4 62.8 102.5
9	9541 M 21 3 72.5 152.3
10	2957 M 22 3 67.3 145.8
11	2158 F 21 2 59.8 104.5
12	4296 F 25 3 62.5 132.5
13	4824 M 23 4 74.5 184.4
14	5736 M 22 3 69.1 149.5
15	8765 F 19 1 67.3 130.5
16	5734 F 18 1 64.3 110.2
17	RUN;

9 Codeblock

PROC PRINT

Erklärung :
Zeigt den vollständigen Inhalt des Datasets 'biology' in der Standard-SAS-Ausgabe an.

Kopiert!

1	PROC PRINT DATA=biology;
2	RUN;

10 Codeblock

PROC MEANS

Erklärung :
Berechnet die grundlegenden deskriptiven Statistiken für die Variablen 'Age', 'Height' und 'Weight' des Datasets 'biology'.

Kopiert!

1	*Q1) Obtain the means of Age,Height and Weight.;
2	PROC MEANS DATA=biology;
3	var Age Height Weight;
4	RUN;

11 Codeblock

PROC MEANS

Erklärung :
Berechnet die deskriptiven Statistiken für die Variablen 'Age', 'Height' und 'Weight' des Datasets 'biology', gruppiert nach jeder Kategorie der Variable 'Sex'.

Kopiert!

1	*Q2) Obtain the Discptive statistics of Age Height and Weight by Gender wise.;
2	PROC MEANS DATA=biology;
3	var Age Height Weight;
4	class Sex;
5	RUN;

12 Codeblock

PROC MEANS

Erklärung :
Berechnet die deskriptiven Statistiken für die Variablen 'Age', 'Height' und 'Weight' des Datasets 'biology', gemeinsam gruppiert nach den Variablen 'Year' und 'Sex'.

Kopiert!

1	*Q3) Obtain the Discptive statistics of Age Height and Weight by Gender and year wise.;
2	PROC MEANS DATA=biology;
3	var Age Height Weight;
4	class year sex;

13 Codeblock

PROC MEANS Data

Erklärung :
Berechnet die deskriptiven Statistiken (Mittelwerte, Standardabweichungen, Schiefen und Mediane) für die Variablen 'Height' und 'Weight' des Datasets 'biology', gruppiert nach 'Year' und 'Sex'. Die Ergebnisse werden in einem neuen Dataset namens 'Stats_biology' gespeichert.

Kopiert!

1	*Q4) store Descriptive statistics in a specific variable.;
2	PROC MEANS DATA=biology;
3	class year sex;
4	OUTPUT out=Stats_biology mean=av_height av_weight std=sd_height sd_weight skewness=sk_height sk_weight median=md_height md_weight;

14 Codeblock

PROC PRINT

Erklärung :
Zeigt den Inhalt des Datasets 'Stats_biology' an, das die von der vorherigen `PROC MEANS` berechneten und gespeicherten deskriptiven Statistiken enthält.

Kopiert!

1	PROC PRINT DATA=Stats_biology;
2	RUN;

15 Codeblock

PROC UNIVARIATE

Erklärung :
Generiert detaillierte univariater Statistiken, einschließlich Momente, Quantile, Normalitätstests und Grafiken (falls aktiviert), für die Variable 'Height' des Datasets 'biology', um ihre Verteilung zu untersuchen.

Kopiert!

1	*Q5) Use univariate command to check the distribution of data.;
2	PROC UNIVARIATE DATA=biology;
3	var Height;
4	RUN;

16 Codeblock

PROC MEANS

Erklärung :
Berechnet die grundlegenden deskriptiven Statistiken für alle numerischen Variablen des Datasets 'biology', wobei die numerischen Ausgaben so formatiert werden, dass maximal zwei Dezimalstellen angezeigt werden, dank der Option `maxdec=2`.

Kopiert!

1	*Q6) Use
2	proc mean command and get the output upto two decimel;
3	PROC MEANS
4	DATA=biology maxdec=2;
5	RUN;
6

Dieses Material wird von We Are Cas "wie besehen" zur Verfügung gestellt. Es gibt keine ausdrücklichen oder stillschweigenden Garantien hinsichtlich der Marktgängigkeit oder Eignung für einen bestimmten Zweck in Bezug auf die hierin enthaltenen Materialien oder Codes. We Are Cas ist nicht verantwortlich für Fehler in diesem Material, wie es jetzt existiert oder existieren wird, noch bietet We Are Cas technischen Support dafür an.

Retour à la liste