Le script initialise un dataset nommé 'test' avec des données numériques simples via une étape DATA et des datalines. Il exécute ensuite la PROC MODECLUS deux fois. La première exécution utilise la méthode 6 avec un rayon R de 2.5 et le seuil par défaut (0.5). La seconde exécution modifie le seuil à 0.55. Pour chaque exécution de MODECLUS, les résultats (densité et clusters) sont stockés dans un dataset de sortie ('out') et ensuite visualisés sous forme de nuage de points (scatter plot) avec la PROC SGPLOT, affichant la densité en fonction de la variable 'x', groupée par cluster. Cela permet de comparer visuellement les effets de différents seuils sur la formation des clusters.
Analyse des données
Type : CREATION_INTERNE
Les données sont créées directement au sein du script SAS via une étape DATA et des datalines, sous la forme d'un dataset nommé 'test' avec une seule variable numérique 'x'.
1 Bloc de code
DATA STEP Data
Explication : Crée un dataset SAS nommé 'test' contenant une variable numérique 'x'. Les valeurs pour 'x' sont fournies directement dans le script via la clause DATALINES, simulant ainsi un ensemble de données unidimensionnelles pour l'analyse de clusters.
Explication : Effectue une analyse de clusters sur le dataset 'test' en utilisant la PROC MODECLUS avec la méthode 6. Le rayon de densité 'r' est fixé à 2.5, et l'option 'trace' affiche des informations détaillées sur la densité. L'option 'short' supprime la matrice de distance. Le seuil de clustering par défaut (0.5) est utilisé. Le dataset de sortie 'out' contient la variable 'x', les densités estimées et l'assignation des clusters pour chaque observation.
Copié !
/*-- METHOD=6 with TRACE and THRESHOLD=0.5 (default) --*/
title 'METHOD=6 with TRACE and THRESHOLD=0.5 (default)';
proc modeclus data=test method=6 r=2.5 trace short out=out;
var x;
run;
1
/*-- METHOD=6 with TRACE and THRESHOLD=0.5 (default) --*/
2
title 'METHOD=6 with TRACE and THRESHOLD=0.5 (default)';
3
4
PROC MODECLUSDATA=test method=6 r=2.5 trace short out=out;
5
var x;
6
RUN;
3 Bloc de code
PROC SGPLOT
Explication : Génère un graphique de type nuage de points (scatter plot) à partir du dataset 'out'. L'axe des Y représente la densité ('density') et l'axe des X la variable 'x'. Les points sont colorés et groupés selon les clusters identifiés ('cluster') et chaque point est étiqueté avec son numéro d'observation ('_obs_'), facilitant la visualisation des résultats du clustering.
Explication : Effectue une deuxième analyse de clusters avec la PROC MODECLUS, en réutilisant le dataset 'test' et la méthode 6. Cette fois, un 'threshold' (seuil) de 0.55 est spécifié, supérieur au défaut. Cette modification est destinée à démontrer comment un ajustement du seuil peut influencer la formation et le nombre de clusters, en sortie dans le dataset 'out'.
Copié !
/*-- METHOD=6 with TRACE and THRESHOLD=0.55 --*/
title 'METHOD=6 with TRACE and THRESHOLD=0.55';
proc modeclus data=test method=6 r=2.5 trace threshold=0.55 short out=out;
var x;
run;
1
/*-- METHOD=6 with TRACE and THRESHOLD=0.55 --*/
2
title 'METHOD=6 with TRACE and THRESHOLD=0.55';
3
4
PROC MODECLUSDATA=test method=6 r=2.5 trace threshold=0.55 short out=out;
5
var x;
6
RUN;
5 Bloc de code
PROC SGPLOT
Explication : Génère un second nuage de points pour visualiser les résultats de la deuxième exécution de la PROC MODECLUS, qui a utilisé un seuil de 0.55. Comme le graphique précédent, il représente la densité par rapport à 'x', groupée par les nouveaux clusters formés, permettant une comparaison directe avec les résultats obtenus avec le seuil par défaut.
Copié !
title2 'Plot of DENSITY*X=CLUSTER with TRACE and THRESHOLD=0.55';
proc sgplot data=out;
scatter y=density x=x / group=cluster datalabel=_obs_;
run;
1
title2 'Plot of DENSITY*X=CLUSTER with TRACE and THRESHOLD=0.55';
Ce matériel est fourni "tel quel" par We Are Cas. Il n'y a aucune garantie, expresse ou implicite, quant à la qualité marchande ou à l'adéquation à un usage particulier concernant le matériel ou le code contenu dans les présentes. We Are Cas n'est pas responsable des erreurs dans ce matériel tel qu'il existe maintenant ou existera, et We Are Cas ne fournit pas de support technique pour celui-ci.
Informations de Copyright : S A S S A M P L E L I B R A R Y, NAME: modecex5, TITLE: Documentation Example 5 for PROC MODECLUS, PRODUCT: STAT
SAS et tous les autres noms de produits ou de services de SAS Institute Inc. sont des marques déposées ou des marques de commerce de SAS Institute Inc. aux États-Unis et dans d'autres pays. ® indique un enregistrement aux États-Unis. WeAreCAS est un site communautaire indépendant et n'est pas affilié à SAS Institute Inc.
Ce site utilise des cookies techniques et analytiques pour améliorer votre expérience.
En savoir plus.