Veröffentlicht am :
Statistique CREATION_INTERNE

Analyse von Mischverteilungen mit PROC HPFMM auf Galaxiedaten

Dieser Code ist auch verfügbar auf: English Español Français
Wartet auf Validierung
Das Skript beginnt mit der Erstellung eines Datensatzes 'galaxies', der die Geschwindigkeiten mehrerer Galaxien enthält. Anschließend wird die HPFMM-Prozedur in drei Schritten angewendet: 1) Suche nach der optimalen Anzahl von Komponenten (3 bis 7) mit ungleichen Varianzen, basierend auf dem AIC-Kriterium. 2) Gleiche Suche, jedoch mit erzwungenen gleichen Varianzen zwischen den Komponenten. 3) Anpassung eines finalen Modells mit 5 Komponenten und einer Einschränkung des Wertes der gemeinsamen Varianz.
Datenanalyse

Type : CREATION_INTERNE


Die Daten werden direkt im Skript über einen DATA-Schritt und eine DATALINES-Anweisung erstellt. Die Variable 'velocity' wird gelesen und in eine neue Variable 'v' für die Analyse umgewandelt.

1 Codeblock
DATA STEP Data
Erklärung :
Dieser DATA STEP-Block liest die über 'datalines' bereitgestellten Galaxien-Geschwindigkeitsdaten. Der Operator ' @@' (double trailing at) ermöglicht das Lesen mehrerer Beobachtungen in einer einzigen Datenzeile. Eine neue Variable 'v' wird durch Teilen von 'velocity' durch 1000 zur Skalierung berechnet.
Kopiert!
1title "HPFMM Analysis of Galaxies Data";
2DATA galaxies;
3 INPUT velocity @code_sas_json/8_SAS_Intro_ReadFile_MultiCol_@@.json;
4 v = velocity / 1000;
5 DATALINES;
69172 9350 9483 9558 9775 10227 10406 16084 16170 18419
718552 18600 18927 19052 19070 19330 19343 19349 19440 19473
819529 19541 19547 19663 19846 19856 19863 19914 19918 19973
919989 20166 20175 20179 20196 20215 20221 20415 20629 20795
1020821 20846 20875 20986 21137 21492 21701 21814 21921 21960
1122185 22209 22242 22249 22314 22374 22495 22746 22747 22888
1222914 23206 23241 23263 23484 23538 23542 23666 23706 23711
1324129 24285 24289 24366 24717 24990 25633 26960 26995 32065
1432789 34279
15;
16 
2 Codeblock
PROC HPFMM
Erklärung :
Erste Analyse mit HPFMM zur Bestimmung der optimalen Anzahl von Komponenten (zwischen 3 und 7, Optionen kmin und kmax) basierend auf dem Akaike-Informationskriterium (AIC). Standardmäßig werden die Varianzen der normalen Komponenten separat (ungleich) geschätzt. ODS-Grafiken werden aktiviert und einige Ausgabetabellen (Iterationsverlauf, Optimierungsinformationen) werden ausgeblendet.
Kopiert!
1title2 "Three to Seven Components, Unequal Variances";
2ods graphics on;
3PROC HPFMM DATA=galaxies criterion=AIC;
4 model v = / kmin=3 kmax=7;
5 ods exclude IterHistory OptInfo ComponentInfo;
6RUN;
3 Codeblock
PROC HPFMM
Erklärung :
Zweite Analyse mit HPFMM, ähnlich der ersten, jedoch mit der Einschränkung, dass die Varianzen der Komponenten gleich sind (Option EQUATE=SCALE). Das Konvergenzkriterium für den Gradienten wird deaktiviert (gconv=0).
Kopiert!
1title2 "Three to Seven Components, Equal Variances";
2PROC HPFMM DATA=galaxies criterion=AIC gconv=0;
3 model v = / kmin=3 kmax=7 equate=scale;
4RUN;
4 Codeblock
PROC HPFMM
Erklärung :
Dritte und letzte Analyse, die ein spezifisches Modell mit 5 Komponenten (K=5) mit gleichen Varianzen (EQUATE=SCALE) anpasst. Die RESTRICT-Anweisung fügt eine Einschränkung hinzu, um den Wert dieser gemeinsamen Varianz auf 0.9025 festzulegen. Schließlich werden die ODS-Grafiken deaktiviert.
Kopiert!
1title2 "Five Components, Equal Variances = 0.9025";
2PROC HPFMM DATA=galaxies;
3 model v = / K=5 equate=scale;
4 restrict int 0 (scale 1) = 0.9025;
5RUN;
6ods graphics off;
Dieses Material wird von We Are Cas "wie besehen" zur Verfügung gestellt. Es gibt keine ausdrücklichen oder stillschweigenden Garantien hinsichtlich der Marktgängigkeit oder Eignung für einen bestimmten Zweck in Bezug auf die hierin enthaltenen Materialien oder Codes. We Are Cas ist nicht verantwortlich für Fehler in diesem Material, wie es jetzt existiert oder existieren wird, noch bietet We Are Cas technischen Support dafür an.
Urheberrechtsinformationen : SAS SAMPLE LIBRARY