El script inicializa un conjunto de datos llamado 'test' con datos numéricos simples a través de un paso DATA y datalines. Luego ejecuta PROC MODECLUS dos veces. La primera ejecución utiliza el método 6 con un radio R de 2.5 y el umbral predeterminado (0.5). La segunda ejecución modifica el umbral a 0.55. Para cada ejecución de MODECLUS, los resultados (densidad y clusters) se almacenan en un conjunto de datos de salida ('out') y luego se visualizan como un diagrama de dispersión (scatter plot) con PROC SGPLOT, mostrando la densidad en función de la variable 'x', agrupada por cluster. Esto permite comparar visualmente los efectos de diferentes umbrales en la formación de clusters.
Análisis de datos
Type : CREATION_INTERNE
Los datos se crean directamente dentro del script SAS a través de un paso DATA y datalines, en forma de un conjunto de datos llamado 'test' con una única variable numérica 'x'.
1 Bloque de código
DATA STEP Data
Explicación : Crea un conjunto de datos SAS llamado 'test' que contiene una variable numérica 'x'. Los valores para 'x' se proporcionan directamente en el script a través de la cláusula DATALINES, simulando así un conjunto de datos unidimensional para el análisis de clusters.
Explicación : Realiza un análisis de clusters en el conjunto de datos 'test' utilizando PROC MODECLUS con el método 6. El radio de densidad 'r' se fija en 2.5, y la opción 'trace' muestra información detallada sobre la densidad. La opción 'short' suprime la matriz de distancia. Se utiliza el umbral de clustering predeterminado (0.5). El conjunto de datos de salida 'out' contiene la variable 'x', las densidades estimadas y la asignación de clusters para cada observación.
¡Copiado!
/*-- METHOD=6 with TRACE and THRESHOLD=0.5 (default) --*/
title 'METHOD=6 with TRACE and THRESHOLD=0.5 (default)';
proc modeclus data=test method=6 r=2.5 trace short out=out;
var x;
run;
1
/*-- METHOD=6 with TRACE and THRESHOLD=0.5 (default) --*/
2
title 'METHOD=6 with TRACE and THRESHOLD=0.5 (default)';
3
4
PROC MODECLUSDATA=test method=6 r=2.5 trace short out=out;
5
var x;
6
RUN;
3 Bloque de código
PROC SGPLOT
Explicación : Genera un gráfico de dispersión (scatter plot) a partir del conjunto de datos 'out'. El eje Y representa la densidad ('density') y el eje X la variable 'x'. Los puntos se colorean y agrupan según los clusters identificados ('cluster') y cada punto se etiqueta con su número de observación ('_obs_'), facilitando la visualización de los resultados del clustering.
Explicación : Realiza un segundo análisis de clusters con PROC MODECLUS, reutilizando el conjunto de datos 'test' y el método 6. Esta vez, se especifica un 'threshold' (umbral) de 0.55, superior al predeterminado. Esta modificación tiene como objetivo demostrar cómo un ajuste del umbral puede influir en la formación y el número de clusters, saliendo en el conjunto de datos 'out'.
¡Copiado!
/*-- METHOD=6 with TRACE and THRESHOLD=0.55 --*/
title 'METHOD=6 with TRACE and THRESHOLD=0.55';
proc modeclus data=test method=6 r=2.5 trace threshold=0.55 short out=out;
var x;
run;
1
/*-- METHOD=6 with TRACE and THRESHOLD=0.55 --*/
2
title 'METHOD=6 with TRACE and THRESHOLD=0.55';
3
4
PROC MODECLUSDATA=test method=6 r=2.5 trace threshold=0.55 short out=out;
5
var x;
6
RUN;
5 Bloque de código
PROC SGPLOT
Explicación : Genera un segundo diagrama de dispersión para visualizar los resultados de la segunda ejecución de PROC MODECLUS, que utilizó un umbral de 0.55. Al igual que el gráfico anterior, representa la densidad en relación con 'x', agrupada por los nuevos clusters formados, lo que permite una comparación directa con los resultados obtenidos con el umbral predeterminado.
¡Copiado!
title2 'Plot of DENSITY*X=CLUSTER with TRACE and THRESHOLD=0.55';
proc sgplot data=out;
scatter y=density x=x / group=cluster datalabel=_obs_;
run;
1
title2 'Plot of DENSITY*X=CLUSTER with TRACE and THRESHOLD=0.55';
Este material se proporciona "tal cual" por We Are Cas. No hay garantías, expresas o implícitas, en cuanto a la comerciabilidad o idoneidad para un propósito particular con respecto a los materiales o el código contenidos en este documento. We Are Cas no es responsable de los errores en este material tal como existe ahora o existirá, ni We Are Cas proporciona soporte técnico para el mismo.
Información de copyright : S A S S A M P L E L I B R A R Y, NAME: modecex5, TITLE: Documentation Example 5 for PROC MODECLUS, PRODUCT: STAT
SAS y todos los demás nombres de productos o servicios de SAS Institute Inc. son marcas registradas o marcas comerciales de SAS Institute Inc. en los EE. UU. y otros países. ® indica registro en los EE. UU. WeAreCAS es un sitio comunitario independiente y no está afiliado a SAS Institute Inc.
Este sitio utiliza cookies técnicas y analíticas para mejorar su experiencia.
Saber más.