Analyse et Statistiques de Données Multiples

Le script est structuré en plusieurs sections indépendantes. La première section crée un dataset 'scoredata' et en dérive un sous-ensemble 'subsetscoredata' en filtrant les observations selon une condition sur 'scorevalues'. La deuxième section initialise un dataset 'demography' pour ensuite réaliser des analyses de fréquence sur la variable 'Gender' avec `PROC FREQ` et des statistiques descriptives sur 'Age', 'Weight', 'Height' avec `PROC MEANS`. La section principale crée un dataset 'biology' et applique une série d'analyses statistiques : calcul des moyennes pour 'Age', 'Height', 'Weight', puis des statistiques descriptives groupées par 'Sex', et ensuite par 'Year' et 'Sex'. Une `PROC MEANS` est spécifiquement utilisée pour sauvegarder les statistiques descriptives calculées (moyennes, écarts-types, asymétries, médianes) dans un nouveau dataset nommé 'Stats_biology'. Enfin, le script utilise `PROC UNIVARIATE` pour une analyse de distribution de 'Height' et `PROC MEANS` avec l'option `maxdec=2` pour formater la sortie des statistiques.

Analyse des données

Type : CREATION_INTERNE

Tous les datasets ('scoredata', 'subsetscoredata', 'demography', 'biology', 'Stats_biology') sont créés directement au sein du script à l'aide de blocs `DATA STEP` avec des données `datalines` intégrées, ou sont dérivés de ces datasets internes. Aucune source de données externe (fichiers, bases de données) n'est référencée ou requise pour l'exécution du script.

1 Bloc de code

DATA STEP Data

Explication :
Crée un dataset nommé 'scoredata' avec deux variables, 'A' (caractère) et 'Scorevalues' (numérique), en utilisant des données fournies directement via des `datalines`.

Copié !

1	DATA scoredata;
2	INPUT A $ Scorevalues;
3	DATALINES;
4	P 77 P 76 P 74 P 72 P 78
5	D 80 D 84 D 88 D 87 D 90
6	RUN;

2 Bloc de code

PROC PRINT

Explication :
Affiche le contenu du dataset 'scoredata' dans la sortie SAS standard.

Copié !

1	PROC PRINT DATA=scoredata;

3 Bloc de code

DATA STEP Data

Explication :
Crée un nouveau dataset nommé 'subsetscoredata' à partir de 'scoredata', en incluant uniquement les observations où la valeur de 'Scorevalues' est strictement supérieure à 78.

Copié !

1	DATA subsetscoredata;
2	SET scoredata;
3	IF scorevalues>78;
4	RUN;

4 Bloc de code

PROC PRINT

Explication :
Affiche le contenu du dataset 'subsetscoredata' dans la sortie SAS standard.

Copié !

1	PROC PRINT DATA=subsetscoredata;

5 Bloc de code

DATA STEP Data

Explication :
Crée un dataset nommé 'demography' avec des variables 'Gender' (caractère), 'Age', 'Weight' et 'Height' (numériques), en utilisant des données fournies via des `datalines`. Le statement `title Demography;` définit un titre pour les prochaines sorties de procédures.

Copié !

1	*Q4;
2	DATA demography;
3	INPUT Gender $ Age Weight Height;
4	DATALINES;
5	M 50 68 155
6	F 23 60 165
7	M 65 72 180
8	F 35 55 154
9	M 15 35 158
10	RUN;
11	title Demography;

6 Bloc de code

PROC FREQ

Explication :
Calcule et affiche la distribution de fréquences pour la variable 'Gender' du dataset 'demography', montrant le nombre et le pourcentage d'occurrences pour chaque catégorie de genre.

Copié !

1	PROC FREQ DATA=demography;
2	TABLE Gender;

7 Bloc de code

PROC MEANS

Explication :
Calcule les statistiques descriptives de base (N, moyenne, écart-type, minimum, maximum) pour les variables 'Age', 'Weight' et 'Height' du dataset 'demography'.

Copié !

1	PROC MEANS DATA=demography;
2	Var Age Weight height;

8 Bloc de code

DATA STEP Data

Explication :
Crée un dataset nommé 'biology' avec des variables 'Id' (numérique), 'sex' (caractère), 'Age', 'Year', 'Height' et 'Weight' (numériques), en utilisant des données fournies directement via des `datalines`.

Copié !

1	*------------------------------------;
2	DATA biology;
3	INPUT Id sex $ Age Year Height Weight;
4	DATALINES;
5	7389 M 24 4 69.2 132.5
6	3945 F 19 2 58.5 112.8
7	4721 F 20 2 65.3 98.6
8	1835 F 24 4 62.8 102.5
9	9541 M 21 3 72.5 152.3
10	2957 M 22 3 67.3 145.8
11	2158 F 21 2 59.8 104.5
12	4296 F 25 3 62.5 132.5
13	4824 M 23 4 74.5 184.4
14	5736 M 22 3 69.1 149.5
15	8765 F 19 1 67.3 130.5
16	5734 F 18 1 64.3 110.2
17	RUN;

9 Bloc de code

PROC PRINT

Explication :
Affiche le contenu complet du dataset 'biology' dans la sortie SAS standard.

Copié !

1	PROC PRINT DATA=biology;
2	RUN;

10 Bloc de code

PROC MEANS

Explication :
Calcule les statistiques descriptives de base pour les variables 'Age', 'Height' et 'Weight' du dataset 'biology'.

Copié !

1	*Q1) Obtain the means of Age,Height and Weight.;
2	PROC MEANS DATA=biology;
3	var Age Height Weight;
4	RUN;

11 Bloc de code

PROC MEANS

Explication :
Calcule les statistiques descriptives pour les variables 'Age', 'Height' et 'Weight' du dataset 'biology', groupées par chaque catégorie de la variable 'Sex'.

Copié !

1	*Q2) Obtain the Discptive statistics of Age Height and Weight by Gender wise.;
2	PROC MEANS DATA=biology;
3	var Age Height Weight;
4	class Sex;
5	RUN;

12 Bloc de code

PROC MEANS

Explication :
Calcule les statistiques descriptives pour les variables 'Age', 'Height' et 'Weight' du dataset 'biology', groupées conjointement par les variables 'Year' et 'Sex'.

Copié !

1	*Q3) Obtain the Discptive statistics of Age Height and Weight by Gender and year wise.;
2	PROC MEANS DATA=biology;
3	var Age Height Weight;
4	class year sex;

13 Bloc de code

PROC MEANS Data

Explication :
Calcule les statistiques descriptives (moyennes, écarts-types, asymétries et médianes) pour les variables 'Height' et 'Weight' du dataset 'biology', groupées par 'Year' et 'Sex'. Les résultats sont stockés dans un nouveau dataset nommé 'Stats_biology'.

Copié !

1	*Q4) store Descriptive statistics in a specific variable.;
2	PROC MEANS DATA=biology;
3	class year sex;
4	OUTPUT out=Stats_biology mean=av_height av_weight std=sd_height sd_weight skewness=sk_height sk_weight median=md_height md_weight;

14 Bloc de code

PROC PRINT

Explication :
Affiche le contenu du dataset 'Stats_biology', qui contient les statistiques descriptives calculées et stockées par la `PROC MEANS` précédente.

Copié !

1	PROC PRINT DATA=Stats_biology;
2	RUN;

15 Bloc de code

PROC UNIVARIATE

Explication :
Génère des statistiques univariées détaillées, incluant des moments, des quantiles, des tests de normalité et des graphiques (si activés), pour la variable 'Height' du dataset 'biology', afin d'examiner sa distribution.

Copié !

1	*Q5) Use univariate command to check the distribution of data.;
2	PROC UNIVARIATE DATA=biology;
3	var Height;
4	RUN;

16 Bloc de code

PROC MEANS

Explication :
Calcule les statistiques descriptives de base pour toutes les variables numériques du dataset 'biology', en formatant les sorties numériques pour afficher au maximum deux décimales grâce à l'option `maxdec=2`.

Copié !

1	*Q6) Use
2	proc mean command and get the output upto two decimel;
3	PROC MEANS
4	DATA=biology maxdec=2;
5	RUN;
6

Ce matériel est fourni "tel quel" par We Are Cas. Il n'y a aucune garantie, expresse ou implicite, quant à la qualité marchande ou à l'adéquation à un usage particulier concernant le matériel ou le code contenu dans les présentes. We Are Cas n'est pas responsable des erreurs dans ce matériel tel qu'il existe maintenant ou existera, et We Are Cas ne fournit pas de support technique pour celui-ci.

Retour à la liste