Dataviz SAS : Maîtrisez l'option CLIPFACTOR pour des diagrammes en boîte parfaits

Ce code est également disponible en : Deutsch English Español
Niveau de difficulté
Expert
Publié le :
Stéphanie

Le Conseil de l'Expert

Stéphanie
Spécialiste Machine Learning et IA.

Le diagramme en boîte est l'outil standard pour évaluer la dispersion et identifier les anomalies, mais la présence de valeurs extrêmes (outliers) peut souvent tasser la boîte centrale, rendant l'analyse de la médiane et des quartiles illisible. La puissance de ce script réside dans l'utilisation de l'option CLIPFACTOR. En fixant ce facteur (ici à 1.5), vous demandez à SAS de tronquer l'axe vertical pour se focaliser sur le cœur de la distribution. L'élégance de la méthode tient à l'ajout de CLIPLEGEND, qui garantit la transparence statistique en indiquant clairement au lecteur le nombre de boîtes ayant été "clippées" (tronquées) pour des raisons de clarté visuelle.

Ce script SAS© crée un jeu de données simulant des diamètres de tubes de cuivre par lots. Il génère ensuite des diagrammes en boîte (box plots) pour visualiser la distribution. L'exemple met l'accent sur l'option 'clipfactor' qui permet de tronquer l'axe des ordonnées pour éviter que des valeurs extrêmes n'écrasent visuellement le reste du graphique, tout en signalant ces troncatures via des légendes personnalisées.
Analyse des données

Type : CREATION_INTERNE


Données 'Newtubes' créées via DATALINES avec des boucles imbriquées pour générer les identifiants de lots (Batch).

1 Bloc de code
DATA STEP Data
Explication :
Création du jeu de données avec lecture en continu (@@) des valeurs de diamètre. Les boucles DO imbriquées génèrent la variable de groupe 'Batch' (15 lots) avec 5 observations par lot.
Copié !
1DATA Newtubes;
2 label Diameter='Diameter in mm';
3 DO Batch = 1 to 15;
4 DO i = 1 to 5;
5 INPUT Diameter @@;
6 OUTPUT;
7 END;
8 END;
9 DATALINES;
1069.13 69.83 70.76 69.13 70.81
1185.06 82.82 84.79 84.89 86.53
1267.67 70.37 68.80 70.65 68.20
1371.71 70.46 71.43 69.53 69.28
1471.04 71.04 70.29 70.51 71.29
1569.01 68.87 69.87 70.05 69.85
1650.72 50.49 49.78 50.49 49.69
1769.28 71.80 69.80 70.99 70.50
1870.76 69.19 70.51 70.59 70.40
1970.16 70.07 71.52 70.72 70.31
2068.67 70.54 69.50 69.79 70.76
2168.78 68.55 69.72 69.62 71.53
2270.61 70.75 70.90 71.01 71.53
2374.62 56.95 72.29 82.41 57.64
2470.54 69.82 70.71 71.05 69.24
25;
2 Bloc de code
PROC BOXPLOT
Explication :
Génération d'un diagramme en boîte standard avec ODS Graphics activé. Affiche la distribution du diamètre pour chaque lot.
Copié !
1ods graphics on;
2title 'Box Plot for New Copper Tubes' ;
3PROC BOXPLOT DATA=Newtubes;
4 plot Diameter*Batch / odstitle = title;
5RUN;
3 Bloc de code
PROC BOXPLOT
Explication :
Génération du diagramme avec l'option 'clipfactor=1.5'. Cette option tronque les boîtes dont les moustaches s'étendraient trop loin (valeurs extrêmes), permettant de zoomer sur la distribution centrale.
Copié !
1title 'Box Plot for New Copper Tubes' ;
2PROC BOXPLOT DATA=Newtubes;
3 plot Diameter*Batch /
4 odstitle = title
5 clipfactor = 1.5;
6RUN;
4 Bloc de code
PROC BOXPLOT
Explication :
Version enrichie du graphique tronqué. L'option 'cliplegend' ajoute une légende explicative et 'clipsubchar' définit le caractère '#' pour marquer les lots ayant subi une troncature.
Copié !
1title 'Box Plot for New Copper Tubes' ;
2PROC BOXPLOT DATA=Newtubes;
3 plot Diameter*Batch /
4 odstitle = title
5 clipfactor = 1.5
6 cliplegend = '# Clipped Boxes'
7 clipsubchar = '#';
8RUN;
L'Astuce Pro
e défi majeur de la visualisation statistique réside dans la gestion des valeurs atypiques qui, bien que critiques, peuvent compresser l'échelle visuelle et masquer les variations subtiles du cœur de la distribution. Dans ce script, l'intelligence analytique repose sur l'utilisation de l'option CLIPFACTOR. Elle agit comme un régulateur de focale : en fixant un seuil de troncature (ici 1,5 fois la distance interquartile au-delà des moustaches), elle permet de "zoomer" sur la structure principale de vos lots de production sans supprimer les données.

Cependant, tronquer un graphique sans avertir le lecteur est une erreur de communication de données. L'astuce technique indispensable ici est le couplage de CLIPLEGEND et CLIPSUBCHAR. Cette combinaison automatise la transparence statistique en affichant une légende dynamique qui remplace le caractère # par le nombre réel de boîtes impactées. Vous obtenez ainsi un rapport à la fois esthétique, lisible et rigoureux, garantissant que les déviances extrêmes sont signalées sans compromettre l'analyse visuelle globale.
Ce matériel est fourni "tel quel" par We Are Cas. Il n'y a aucune garantie, expresse ou implicite, quant à la qualité marchande ou à l'adéquation à un usage particulier concernant le matériel ou le code contenu dans les présentes. We Are Cas n'est pas responsable des erreurs dans ce matériel tel qu'il existe maintenant ou existera, et We Are Cas ne fournit pas de support technique pour celui-ci.
Informations de Copyright : SAS SAMPLE LIBRARY