Veröffentlicht am :
Statistik CREATION_INTERNE

Analyse von 'Galaxien'-Daten mit PROC FMM

Dieser Code ist auch verfügbar auf: English Français
Wartet auf Validierung
Das Skript beginnt mit der Erstellung einer SAS©-Tabelle 'galaxies' aus internen Daten (Datalines), die die Geschwindigkeit von 82 Galaxien enthält. Die Geschwindigkeit wird anschließend normalisiert. Es werden dann mehrere Mischmodelle von Normalverteilungen mittels PROC FMM untersucht: 1) ein Modell, bei dem die Anzahl der Komponenten von 3 bis 7 mit ungleichen Varianzen variiert, 2) ein ähnliches Modell, jedoch mit gleichen Varianzen, und 3) ein finales Modell, das die Anzahl der Komponenten auf 5 mit einem festen Varianzwert festlegt. Ziel ist es, die Verteilung der Geschwindigkeiten zu modellieren, die bekanntermaßen multimodal ist.
Datenanalyse

Type : CREATION_INTERNE


Die Daten sind vollständig im Skript über eine DATALINES-Anweisung enthalten. Eine Tabelle 'galaxies' wird mit einer Variable 'velocity' erstellt, die anschließend in 'v' umgewandelt wird.

1 Codeblock
DATA STEP Data
Erklärung :
Dieser DATA STEP-Block erstellt die Tabelle 'galaxies'. Er liest die Geschwindigkeitswerte aus den integrierten Datenzeilen (Datalines). Der Operator ' @@' ermöglicht das Lesen mehrerer Beobachtungen pro Datenzeile. Eine neue Variable 'v' wird berechnet, indem die Geschwindigkeit durch 1000 geteilt wird, um sie zu normalisieren.
Kopiert!
1title "FMM Analysis of Galaxies Data";
2DATA galaxies;
3 INPUT velocity @code_sas_json/8_SAS_Intro_ReadFile_MultiCol_@@.json;
4 v = velocity / 1000;
5 DATALINES;
69172 9350 9483 9558 9775 10227 10406 16084 16170 18419
718552 18600 18927 19052 19070 19330 19343 19349 19440 19473
819529 19541 19547 19663 19846 19856 19863 19914 19918 19973
919989 20166 20175 20179 20196 20215 20221 20415 20629 20795
1020821 20846 20875 20986 21137 21492 21701 21814 21921 21960
1122185 22209 22242 22249 22314 22374 22495 22746 22747 22888
1222914 23206 23241 23263 23484 23538 23542 23666 23706 23711
1324129 24285 24289 24366 24717 24990 25633 26960 26995 32065
1432789 34279
15;
16RUN;
2 Codeblock
PROC FMM
Erklärung :
Diese FMM-Prozedur analysiert die Variable 'v', um das beste Mischmodell normaler Verteilungen zu finden, indem sie eine Anzahl von Komponenten von 3 bis 7 testet (kmin=3, kmax=7). Das Akaike-Informationskriterium (AIC) wird verwendet, um das beste 'k' auszuwählen. Die Varianzen der Komponenten dürfen unterschiedlich sein.
Kopiert!
1title2 "Three to Seven Components, Unequal Variances";
2ods graphics on;
3PROC FMM DATA=galaxies criterion=AIC;
4 model v = / kmin=3 kmax=7;
5RUN;
3 Codeblock
PROC FMM
Erklärung :
Eine zweite FMM-Analyse wird durchgeführt, ähnlich der vorherigen, jedoch mit der Option 'equate=scale'. Diese Option zwingt die Mischkomponenten, gleiche Varianzen zu haben, was das Modell vereinfacht.
Kopiert!
1title2 "Three to Seven Components, Equal Variances";
2PROC FMM DATA=galaxies criterion=AIC gconv=0;
3 model v = / kmin=3 kmax=7 equate=scale;
4RUN;
4 Codeblock
PROC FMM
Erklärung :
Dieser Block passt ein endliches Mischmodell mit einer festen Anzahl von 5 Komponenten (K=5) und gleichen Varianzen ('equate=scale') an. Zusätzlich wird eine RESTRICT-Anweisung verwendet, um den Wert der Varianz ('scale') auf 0.9025 festzulegen.
Kopiert!
1title2 "Five Components, Equal Variances = 0.9025";
2PROC FMM DATA=galaxies;
3 model v = / K=5 equate=scale;
4 restrict int 0 (scale 1) = 0.9025;
5RUN;
Dieses Material wird von We Are Cas "wie besehen" zur Verfügung gestellt. Es gibt keine ausdrücklichen oder stillschweigenden Garantien hinsichtlich der Marktgängigkeit oder Eignung für einen bestimmten Zweck in Bezug auf die hierin enthaltenen Materialien oder Codes. We Are Cas ist nicht verantwortlich für Fehler in diesem Material, wie es jetzt existiert oder existieren wird, noch bietet We Are Cas technischen Support dafür an.
Urheberrechtsinformationen : SAS SAMPLE LIBRARY