Das gmm-Aktionselement (Gaussian Mixture Model) in der Nonparametric Bayes-Aktionsgruppe erstellt ein Gaußsches Mischmodell.
| Parameter | Beschreibung |
|---|---|
| alpha | Legt den Konzentrationsparameter für den Dirichlet-Prozess fest. |
| attributes | Ändert die Attribute von Variablen, die in dieser Aktion verwendet werden. Derzeit werden Attribute, die in den Parametern 'inputs' und 'nominals' angegeben sind, ignoriert. Weitere Informationen zur Angabe des 'attributes'-Parameters finden Sie im allgemeinen 'casinvardesc'-Parameter (Anhang A: Allgemeine Parameter). |
| clusterCovOut | Erstellt auf dem Server eine Tabelle, die die Kovarianzmatrix jedes Clusters enthält. Weitere Informationen zur Angabe des 'clusterCovOut'-Parameters finden Sie im allgemeinen 'casouttable'-Parameter (Formular 1) (Anhang A: Allgemeine Parameter). |
| clusterSumOut | Erstellt auf dem Server eine Tabelle, die die Zusammenfassung der Clustering-Ergebnisse einschließlich Größe, Nachbar und Mittelwert jedes Clusters enthält. Weitere Informationen zur Angabe des 'clusterSumOut'-Parameters finden Sie im allgemeinen 'casouttable'-Parameter (Formular 1) (Anhang A: Allgemeine Parameter). |
| display | Gibt eine Liste von Ergebnistabellen an, die zur Anzeige an den Client gesendet werden sollen. Weitere Informationen zur Angabe des 'display'-Parameters finden Sie im allgemeinen 'displayTables'-Parameter (Anhang A: Allgemeine Parameter). |
| freq | Benennt die numerische Variable, die die Häufigkeit des Auftretens für jede Beobachtung enthält. |
| inference | Gibt die für die Analyse zu verwendende Inferenzmethode an. Der Wert, den Sie für den Parameter 'method' angeben, bestimmt die anderen anwendbaren Parameter. Für die Methode 'VB' (Variational Bayes) sind folgende Parameter verfügbar: 'covariance' (DIAGONAL | FULL), 'maxVbIter' (64-bit-integer) und 'threshold' (double). |
| inputs | Gibt Variablen an, die für die Analyse verwendet werden sollen. Weitere Informationen zur Angabe des 'inputs'-Parameters finden Sie im allgemeinen 'casinvardesc'-Parameter (Anhang A: Allgemeine Parameter). |
| maxClusters | Gibt die maximale Anzahl von Clustern an. |
| output | Erstellt auf dem Server eine Tabelle, die den vorhergesagten Cluster sowie die Wahrscheinlichkeitsverteilung über alle erhaltenen Cluster für jede Beobachtung enthält. Weitere Informationen zur Angabe des 'output'-Parameters finden Sie im allgemeinen 'outputStatement'-Parameter (Anhang A: Allgemeine Parameter). |
| outputTables | Listet die Namen der Ergebnistabellen auf, die als CAS-Tabellen auf dem Server gespeichert werden sollen. Weitere Informationen zur Angabe des 'outputTables'-Parameters finden Sie im allgemeinen 'outputTables'-Parameter (Anhang A: Allgemeine Parameter). |
| saveState | Gibt die Tabelle an, in der der Modellstatus für die zukünftige Modellvorhersage gespeichert werden soll. Der 'casouttable'-Wert kann eines oder mehrere der folgenden Elemente sein: 'caslib'="string" (gibt den Namen der Caslib für die Ausgabetabelle an.), 'label'="string" (gibt das beschreibende Label an, das der Tabelle zugeordnet werden soll.), 'lifetime'=64-bit-integer (gibt die Anzahl der Sekunden an, für die die Tabelle im Speicher gehalten wird, nachdem zuletzt darauf zugegriffen wurde. Die Tabelle wird gelöscht, wenn innerhalb der angegebenen Sekunden nicht darauf zugegriffen wird. Standard: 0, Minimalwert: 0), 'memoryFormat'="DVR" | "INHERIT" | "STANDARD" (gibt das Speicherformat für die Ausgabetabelle an. Standard: INHERIT), 'name'="table-name" (gibt den Namen für die Ausgabetabelle an.), 'promote'=TRUE | FALSE (bei TRUE wird die Ausgabetabelle mit globalem Geltungsbereich hinzugefügt. Dies ermöglicht anderen Sitzungen den Zugriff auf die Tabelle, vorbehaltlich der Zugriffskontrollen. Die Ziel-Caslib muss ebenfalls einen globalen Geltungsbereich haben. Standard: FALSE), 'replace'=TRUE | FALSE (bei TRUE wird eine vorhandene Tabelle mit demselben Namen überschrieben. Standard: FALSE), 'tableRedistUpPolicy'="DEFER" | "NOREDIST" | "REBALANCE" (Gibt die Richtlinie zur Neuverteilung von Tabellen an, wenn die Anzahl der Worker-Pods auf einem laufenden CAS-Server erhöht wird.) |
| seed | Gibt eine Gleitkommazahl an, die zum Starten des Pseudozufallszahlengenerators für die Initialisierung verwendet werden soll. Standard: 0, Minimalwert: 0 |
| table | Gibt die Eingabedatentabelle an. Der 'castable'-Wert kann eines oder mehrere der folgenden Elemente sein: 'caslib'="string" (gibt die Caslib für die Eingabetabelle an, die Sie mit der Aktion verwenden möchten. Standardmäßig wird die aktive Caslib verwendet. Geben Sie nur einen Wert an, wenn Sie auf eine Tabelle aus einer anderen Caslib zugreifen müssen.), 'computedOnDemand'=TRUE | FALSE (bei TRUE werden die berechneten Variablen beim Laden der Tabelle anstatt beim Start der Aktion erstellt. Standard: FALSE), 'computedVars'={{casinvardesc-1} <, {casinvardesc-2}, ...>} (gibt die Namen der zu erstellenden berechneten Variablen an.), 'computedVarsProgram'="string" (gibt einen Ausdruck für jede berechnete Variable an, die Sie in den Parameter 'computedVars' aufnehmen.), 'dataSourceOptions'={key-1=any-list-or-data-type-1 <, key-2=any-list-or-data-type-2, ...>} (gibt Datenquellenoptionen an.), 'importOptions'={fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", fileType-specific-parameters} (gibt die Einstellungen zum Lesen einer Tabelle aus einer Datenquelle an.), 'name'="table-name" (gibt den Namen der Eingabetabelle an.), 'singlePass'=TRUE | FALSE (bei TRUE wird keine transiente Tabelle auf dem Server erstellt. Das Setzen dieses Parameters auf TRUE kann effizient sein, aber die Daten haben bei wiederholten Läufen möglicherweise keine stabile Reihenfolge. Standard: FALSE), 'vars'={{casinvardesc-1} <, {casinvardesc-2}, ...>} (gibt die in der Aktion zu verwendenden Variablen an.), 'where'="where-expression" (gibt einen Ausdruck zum Subsetting der Eingabedaten an.), 'whereTable'={groupbytable} (gibt eine Eingabetabelle an, die Zeilen enthält, die als WHERE-Filter verwendet werden sollen.) |
| covariance | Gibt den Typ der Kovarianzmatrix der Gaußschen Mischungen an. Standard: DIAGONAL (unter dem Inferenzmethode VB). |
| maxVbIter | Gibt die Anzahl der Iterationen für die variationale Bayes'sche (VB) Inferenz an (unter dem Inferenzmethode VB). |
| threshold | Gibt den Schwellenwert der Differenz zwischen der aktuellen und der vorherigen Wahrscheinlichkeit an (unter dem Inferenzmethode VB). |
Für die 'gmm'-Aktion sind keine spezifischen Codebeispiele zur Datenerstellung in der bereitgestellten Dokumentation enthalten. Im Allgemeinen würde man eine CAS-Tabelle mit numerischen Daten vorbereiten, die gruppiert werden sollen.
| 1 | /* Beispiel für die Erstellung einer CAS-Tabelle (Platzhalter) */ |
| 2 | DATA mycas.input_data; |
| 3 | INPUT x1 x2 x3; |
| 4 | DATALINES; |
| 5 | 1 2 3 |
| 6 | 4 5 6 |
| 7 | 7 8 9 |
| 8 | ; |
| 9 | RUN; |
| 10 |
Ein einfaches Beispiel zur Ausführung der 'gmm'-Aktion mit einer vorgegebenen Tabelle und einer maximalen Clusteranzahl.
| 1 | PROC CAS; |
| 2 | nonParametricBayes.gmm / |
| 3 | TABLE={name="input_data"}, |
| 4 | inputs={{name="x1"}, {name="x2"}}, |
| 5 | maxClusters=5; |
| 6 | RUN; |
| 7 |
Dieses Beispiel zeigt die Verwendung der 'gmm'-Aktion mit spezifischer Kovarianzmatrix, Anzahl der Iterationen und einem Schwellenwert für die Variational Bayes-Inferenzmethode.
| 1 | PROC CAS; |
| 2 | nonParametricBayes.gmm / |
| 3 | TABLE={name="input_data"}, |
| 4 | inputs={{name="x1"}, {name="x2"}, {name="x3"}}, |
| 5 | maxClusters=10, |
| 6 | inference={method="VB", covariance="FULL", maxVbIter=100, threshold=1e-6}, |
| 7 | OUTPUT={casOut={name="output_clusters", replace=TRUE}, copyVars="ALL"}, |
| 8 | clusterSumOut={name="cluster_summary", replace=TRUE}; |
| 9 | RUN; |
| 10 |