Publicado el :
Estadística CREACIÓN_INTERNA

Análisis de mezclas de distribuciones con PROC HPFMM en los datos de Galaxias

Este código también está disponible en: Deutsch English Français
En espera de validación
El script comienza creando un conjunto de datos 'galaxies' que contiene las velocidades de varias galaxias. Luego, aplica el procedimiento HPFMM en tres pasos: 1) Búsqueda del número óptimo de componentes (de 3 a 7) con varianzas desiguales, basándose en el criterio AIC. 2) Misma búsqueda pero forzando varianzas iguales entre los componentes. 3) Ajuste de un modelo final de 5 componentes con una restricción sobre el valor de la varianza común.
Análisis de datos

Type : CREACIÓN_INTERNA


Los datos se crean directamente en el script a través de un paso DATA y una instrucción DATALINES. La variable 'velocity' se lee y se transforma en una nueva variable 'v' para el análisis.

1 Bloque de código
DATA STEP Data
Explicación :
Este bloque DATA STEP lee los datos de velocidad de las galaxias proporcionados a través de 'datalines'. El operador '@@' (double trailing at) permite leer múltiples observaciones en la misma línea de datos. Se calcula una nueva variable 'v' dividiendo 'velocity' por 1000 para el escalado.
¡Copiado!
1title "HPFMM Analysis of Galaxies Data";
2DATA galaxies;
3 INPUT velocity @code_sas_json/8_SAS_Intro_ReadFile_MultiCol_@@.json;
4 v = velocity / 1000;
5 DATALINES;
69172 9350 9483 9558 9775 10227 10406 16084 16170 18419
718552 18600 18927 19052 19070 19330 19343 19349 19440 19473
819529 19541 19547 19663 19846 19856 19863 19914 19918 19973
919989 20166 20175 20179 20196 20215 20221 20415 20629 20795
1020821 20846 20875 20986 21137 21492 21701 21814 21921 21960
1122185 22209 22242 22249 22314 22374 22495 22746 22747 22888
1222914 23206 23241 23263 23484 23538 23542 23666 23706 23711
1324129 24285 24289 24366 24717 24990 25633 26960 26995 32065
1432789 34279
15;
16 
2 Bloque de código
PROC HPFMM
Explicación :
Primer análisis con HPFMM para determinar el número óptimo de componentes (entre 3 y 7, opciones kmin y kmax) basado en el criterio de información de Akaike (AIC). Por defecto, las varianzas de los componentes normales se estiman por separado (desiguales). Los gráficos ODS están activados y algunas tablas de salida (historial de iteraciones, información de optimización) están ocultas.
¡Copiado!
1title2 "Three to Seven Components, Unequal Variances";
2ods graphics on;
3PROC HPFMM DATA=galaxies criterion=AIC;
4 model v = / kmin=3 kmax=7;
5 ods exclude IterHistory OptInfo ComponentInfo;
6RUN;
3 Bloque de código
PROC HPFMM
Explicación :
Segundo análisis con HPFMM, similar al primero, pero con la restricción de que las varianzas de los componentes sean iguales (opción EQUATE=SCALE). El criterio de convergencia sobre el gradiente está desactivado (gconv=0).
¡Copiado!
1title2 "Three to Seven Components, Equal Variances";
2PROC HPFMM DATA=galaxies criterion=AIC gconv=0;
3 model v = / kmin=3 kmax=7 equate=scale;
4RUN;
4 Bloque de código
PROC HPFMM
Explicación :
Tercer y último análisis que ajusta un modelo específico de 5 componentes (K=5), con varianzas iguales (EQUATE=SCALE). La instrucción RESTRICT añade una restricción para fijar el valor de esta varianza común a 0.9025. Finalmente, los gráficos ODS están desactivados.
¡Copiado!
1title2 "Five Components, Equal Variances = 0.9025";
2PROC HPFMM DATA=galaxies;
3 model v = / K=5 equate=scale;
4 restrict int 0 (scale 1) = 0.9025;
5RUN;
6ods graphics off;
Este material se proporciona "tal cual" por We Are Cas. No hay garantías, expresas o implícitas, en cuanto a la comerciabilidad o idoneidad para un propósito particular con respecto a los materiales o el código contenidos en este documento. We Are Cas no es responsable de los errores en este material tal como existe ahora o existirá, ni We Are Cas proporciona soporte técnico para el mismo.
Información de copyright : SAS SAMPLE LIBRARY