Standardisation SAS : STD, MAD ou IQR ? Choisissez la meilleure méthode pour vos scores

Niveau de difficulté

Débutant

Publié le : 01/12/2023

Le Conseil de l'Expert

Michael
Responsable de l'infrastructure Viya.

La standardisation des données est une étape de prétraitement critique, souvent sous-estimée, dont dépend la stabilité de nombreux algorithmes de machine learning. Ce script illustre une expertise fondamentale : le choix d'une méthode de mise à l'échelle adaptée à la distribution des données. Alors que la méthode classique METHOD=STD (score Z) est extrêmement sensible aux valeurs aberrantes — comme le montre la suppression de l'outlier total=64 qui modifie radicalement les statistiques de groupe — l'utilisation de la PROC STDIZE permet d'explorer des alternatives robustes.

L'expertise réside ici dans le passage aux méthodes basées sur les statistiques de rang ou de dispersion robuste. En utilisant METHOD=MAD (Median Absolute Deviation) ou METHOD=IQR (Interquartile Range), vous centrez vos scores sur la médiane plutôt que sur la moyenne, rendant la standardisation insensible aux points extrêmes. L'option METHOD=ABW (Biweight d'Andrews) va encore plus loin en appliquant une pondération itérative qui minimise l'influence des outliers sans avoir à les supprimer manuellement.

L'astuce d'expert consiste à utiliser l'option PSTAT pour afficher les coefficients de localisation et d'échelle calculés. Cela permet de vérifier la cohérence des transformations avant de les injecter dans une analyse de clusters ou une régression, garantissant que les variables ayant des échelles différentes contribuent de manière équitable au modèle final.

Le script crée un jeu de données 'TotalScores' avec les scores d'étudiants de zones 'rural' et 'urban'. Il visualise d'abord la distribution pour identifier les outliers via une PROC BOXPLOT, puis calcule les statistiques de base avec PROC UNIVARIATE. Le cœur du script compare plusieurs méthodes de standardisation (STD, MAD, IQR, ABW) via PROC STDIZE. Finalement, il démontre l'effet de la suppression d'un outlier en ré-appliquant la méthode de standardisation standard pour comparer les résultats.

Analyse des données

Type : CREATION_INTERNE

Les données sont entièrement créées au sein du script via une étape DATA avec une instruction DATALINES. L'indicateur '@@' est utilisé pour lire plusieurs observations à partir d'une seule ligne de données.

1 Bloc de code

DATA STEP Data

Explication :
Ce bloc crée le jeu de données 'TotalScores' à partir de données internes (datalines). L'instruction 'input' avec '@@' permet de lire plusieurs observations par ligne de texte.

Copié !

1	DATA TotalScores;
2	title 'High School Scores Data';
3	INPUT id Type $ total @@;
4	DATALINES;
5	1 rural 135 2 rural 125 3 rural 223 4 rural 224 5 rural 133
6	6 rural 253 7 rural 144 8 rural 193 9 rural 152 10 rural 178
7	11 rural 120 12 rural 180 13 rural 154 14 rural 184 15 rural 187
8	16 rural 111 17 rural 190 18 rural 128 19 rural 110 20 rural 217
9	21 urban 192 22 urban 186 23 urban 64 24 urban 159 25 urban 133
10	26 urban 163 27 urban 130 28 urban 163 29 urban 189 30 urban 144
11	31 urban 154 32 urban 198 33 urban 150 34 urban 151 35 urban 152
12	36 urban 151 37 urban 127 38 urban 167 39 urban 170 40 urban 123
13	;
14

2 Bloc de code

PROC BOXPLOT

Explication :
Génère des diagrammes en boîtes (boxplots) pour la variable 'total' en fonction de la variable 'Type', afin de visualiser la distribution et les valeurs aberrantes (outliers).

Copié !

1	ods graphics on;
2	PROC BOXPLOT DATA=TotalScores;
3	plot total*Type / boxstyle=schematic noserifs;
4	RUN;

3 Bloc de code

PROC UNIVARIATE

Explication :
Calcule des statistiques descriptives détaillées (moyenne, médiane, écart-type, etc.) pour la variable 'total', séparément pour chaque valeur de 'Type'.

Copié !

1	PROC UNIVARIATE DATA=TotalScores;
2	var total;
3	BY Type;
4	RUN;

4 Bloc de code

PROC STDIZE

Explication :
Standardise la variable 'total' en utilisant la méthode de l'écart-type (STD). L'option 'pstat' affiche les statistiques de localisation et d'échelle utilisées.

Copié !

1	PROC STDIZE DATA=totalscores method=std pstat;
2	title2 'METHOD=STD';
3	var total;
4	BY Type;
5	RUN;

5 Bloc de code

PROC STDIZE

Explication :
Standardise la variable 'total' en utilisant la méthode robuste de l'écart absolu médian (Median Absolute Deviation - MAD).

Copié !

1	PROC STDIZE DATA=totalscores method=mad pstat;
2	title2 'METHOD=MAD';
3	var total;
4	BY Type;
5	RUN;

6 Bloc de code

PROC STDIZE

Explication :
Standardise la variable 'total' en utilisant la méthode robuste de l'intervalle interquartile (Interquartile Range - IQR).

Copié !

1	PROC STDIZE DATA=totalscores method=iqr pstat;
2	title2 'METHOD=IQR';
3	var total;
4	BY Type;
5	RUN;

7 Bloc de code

PROC STDIZE

Explication :
Standardise la variable 'total' en utilisant l'estimateur de poids bi-carré d'Andrew (Andrew's biweight estimator - ABW) avec un paramètre de réglage de 4.

Copié !

1	PROC STDIZE DATA=totalscores method=abw(4) pstat;
2	title2 'METHOD=ABW(4)';
3	var total;
4	BY Type;
5	RUN;

8 Bloc de code

DATA STEP Data

Explication :
Crée un nouveau jeu de données 'NoOutlier' en supprimant l'observation identifiée comme une valeur aberrante (total = 64).

Copié !

1	DATA NoOutlier;
2	SET totalscores;
3	IF (total = 64) THEN delete;
4	RUN;

9 Bloc de code

PROC STDIZE

Explication :
Ré-applique la standardisation par écart-type (STD) sur le jeu de données sans l'outlier pour montrer l'impact de ce dernier sur les statistiques de standardisation.

Copié !

1	PROC STDIZE DATA=NoOutlier method=std pstat;
2	title2 'After Removing Outlier, METHOD=STD';
3	var total;
4	BY Type;
5	RUN;

L'Astuce Pro

Pour optimiser la robustesse de votre standardisation face aux valeurs atypiques (comme le score 64 dans votre table urban), privilégiez METHOD=MAD ou METHOD=IQR plutôt que METHOD=STD : alors que la méthode standard (STD) est extrêmement sensible aux valeurs extrêmes qui tirent la moyenne et l écart-type vers le bas ou le haut, les méthodes basées sur la déviation absolue médiane (MAD) ou l écart interquartile (IQR) utilisent des statistiques de position beaucoup plus stables qui ne nécessitent pas la suppression manuelle des outliers pour obtenir une mise à l échelle cohérente.

Ce matériel est fourni "tel quel" par We Are Cas. Il n'y a aucune garantie, expresse ou implicite, quant à la qualité marchande ou à l'adéquation à un usage particulier concernant le matériel ou le code contenu dans les présentes. We Are Cas n'est pas responsable des erreurs dans ce matériel tel qu'il existe maintenant ou existera, et We Are Cas ne fournit pas de support technique pour celui-ci.

Informations de Copyright : S A S S A M P L E L I B R A R Y

Documentation liée

Scoring Distribué : Déployez vos Modèles Analytiques en RAM

Cet exemple démontre comment télécharger un 'analytic store' (astore) depuis le système de fichie...