Publié le :
Statistique CREATION_INTERNE

Exemple d'utilisation de PROC STDIZE pour la standardisation

En attente de validation
Le script crée un jeu de données 'TotalScores' avec les scores d'étudiants de zones 'rural' et 'urban'. Il visualise d'abord la distribution pour identifier les outliers via une PROC BOXPLOT, puis calcule les statistiques de base avec PROC UNIVARIATE. Le cœur du script compare plusieurs méthodes de standardisation (STD, MAD, IQR, ABW) via PROC STDIZE. Finalement, il démontre l'effet de la suppression d'un outlier en ré-appliquant la méthode de standardisation standard pour comparer les résultats.
Analyse des données

Type : CREATION_INTERNE


Les données sont entièrement créées au sein du script via une étape DATA avec une instruction DATALINES. L'indicateur '@@' est utilisé pour lire plusieurs observations à partir d'une seule ligne de données.

1 Bloc de code
DATA STEP Data
Explication :
Ce bloc crée le jeu de données 'TotalScores' à partir de données internes (datalines). L'instruction 'input' avec '@@' permet de lire plusieurs observations par ligne de texte.
Copié !
1DATA TotalScores;
2 title 'High School Scores Data';
3 INPUT id Type $ total @@;
4 DATALINES;
5 1 rural 135 2 rural 125 3 rural 223 4 rural 224 5 rural 133
6 6 rural 253 7 rural 144 8 rural 193 9 rural 152 10 rural 178
711 rural 120 12 rural 180 13 rural 154 14 rural 184 15 rural 187
816 rural 111 17 rural 190 18 rural 128 19 rural 110 20 rural 217
921 urban 192 22 urban 186 23 urban 64 24 urban 159 25 urban 133
1026 urban 163 27 urban 130 28 urban 163 29 urban 189 30 urban 144
1131 urban 154 32 urban 198 33 urban 150 34 urban 151 35 urban 152
1236 urban 151 37 urban 127 38 urban 167 39 urban 170 40 urban 123
13;
14 
2 Bloc de code
PROC BOXPLOT
Explication :
Génère des diagrammes en boîtes (boxplots) pour la variable 'total' en fonction de la variable 'Type', afin de visualiser la distribution et les valeurs aberrantes (outliers).
Copié !
1ods graphics on;
2PROC BOXPLOT DATA=TotalScores;
3 plot total*Type / boxstyle=schematic noserifs;
4RUN;
3 Bloc de code
PROC UNIVARIATE
Explication :
Calcule des statistiques descriptives détaillées (moyenne, médiane, écart-type, etc.) pour la variable 'total', séparément pour chaque valeur de 'Type'.
Copié !
1PROC UNIVARIATE DATA=TotalScores;
2 var total;
3 BY Type;
4RUN;
4 Bloc de code
PROC STDIZE
Explication :
Standardise la variable 'total' en utilisant la méthode de l'écart-type (STD). L'option 'pstat' affiche les statistiques de localisation et d'échelle utilisées.
Copié !
1PROC STDIZE DATA=totalscores method=std pstat;
2 title2 'METHOD=STD';
3 var total;
4 BY Type;
5RUN;
5 Bloc de code
PROC STDIZE
Explication :
Standardise la variable 'total' en utilisant la méthode robuste de l'écart absolu médian (Median Absolute Deviation - MAD).
Copié !
1PROC STDIZE DATA=totalscores method=mad pstat;
2 title2 'METHOD=MAD';
3 var total;
4 BY Type;
5RUN;
6 Bloc de code
PROC STDIZE
Explication :
Standardise la variable 'total' en utilisant la méthode robuste de l'intervalle interquartile (Interquartile Range - IQR).
Copié !
1PROC STDIZE DATA=totalscores method=iqr pstat;
2 title2 'METHOD=IQR';
3 var total;
4 BY Type;
5RUN;
7 Bloc de code
PROC STDIZE
Explication :
Standardise la variable 'total' en utilisant l'estimateur de poids bi-carré d'Andrew (Andrew's biweight estimator - ABW) avec un paramètre de réglage de 4.
Copié !
1PROC STDIZE DATA=totalscores method=abw(4) pstat;
2 title2 'METHOD=ABW(4)';
3 var total;
4 BY Type;
5RUN;
8 Bloc de code
DATA STEP Data
Explication :
Crée un nouveau jeu de données 'NoOutlier' en supprimant l'observation identifiée comme une valeur aberrante (total = 64).
Copié !
1DATA NoOutlier;
2 SET totalscores;
3 IF (total = 64) THEN delete;
4RUN;
9 Bloc de code
PROC STDIZE
Explication :
Ré-applique la standardisation par écart-type (STD) sur le jeu de données sans l'outlier pour montrer l'impact de ce dernier sur les statistiques de standardisation.
Copié !
1PROC STDIZE DATA=NoOutlier method=std pstat;
2 title2 'After Removing Outlier, METHOD=STD';
3 var total;
4 BY Type;
5RUN;
Ce matériel est fourni "tel quel" par We Are Cas. Il n'y a aucune garantie, expresse ou implicite, quant à la qualité marchande ou à l'adéquation à un usage particulier concernant le matériel ou le code contenu dans les présentes. We Are Cas n'est pas responsable des erreurs dans ce matériel tel qu'il existe maintenant ou existera, et We Are Cas ne fournit pas de support technique pour celui-ci.
Informations de Copyright : S A S S A M P L E L I B R A R Y