gmm

Q: Was ist die Funktion 'gmm Action'?

Die 'gmm Action' (Gaussian mixture model) ist eine Funktion im 'Nonparametric Bayes Action Set' in SAS Viya, die für das Modellieren von Gauss'schen Mischverteilungen verwendet wird.

Q: Welchen Zweck hat der 'alpha'-Parameter in der 'gmm Action'?

Der 'alpha'-Parameter gibt den Konzentrationsparameter für den Dirichlet-Prozess an.

Q: Wie kann ich Attribute von Variablen in der 'gmm Action' ändern?

Sie können den 'attributes'-Parameter verwenden, der eine Liste von 'casinvardesc'-Parametern akzeptiert. Ein Alias dafür ist 'attribute'.

Q: Wofür wird der Parameter 'clusterCovOut' verwendet?

Der 'clusterCovOut'-Parameter erstellt auf dem Server eine Tabelle, die die Kovarianzmatrix jedes Clusters enthält. Er verwendet 'casouttable' (Formular 1) Parameter.

Q: Was liefert der Parameter 'clusterSumOut'?

Der 'clusterSumOut'-Parameter erstellt auf dem Server eine Tabelle, die die Zusammenfassung der Clustering-Ergebnisse enthält, einschließlich der Größe, des Nachbarn und des Mittelwerts jedes Clusters. Er verwendet 'casouttable' (Formular 1) Parameter.

Q: Wofür ist der 'display'-Parameter?

Der 'display'-Parameter gibt eine Liste von Ergebnistabellen an, die zur Anzeige an den Client gesendet werden sollen. Er verwendet 'displayTables'-Parameter.

Q: Wie wird die Häufigkeit des Auftretens in der 'gmm Action' angegeben?

Der 'freq'-Parameter benennt die numerische Variable, die die Häufigkeit des Auftretens für jede Beobachtung enthält.

Q: Wofür ist der 'inference'-Parameter?

Der 'inference'-Parameter gibt die Inferenzmethode an, die in der Analyse verwendet werden soll. Die verfügbare Methode ist 'VB' (Variational Bayesian) mit weiteren methodenspezifischen Parametern. Ein Alias dafür ist 'infer'.

Q: Wie werden die Eingabevariablen für die Analyse angegeben?

Der 'inputs'-Parameter gibt Variablen für die Analyse an. Er verwendet 'casinvardesc'-Parameter. Ein Alias dafür ist 'input'.

Q: Was ist der 'maxClusters'-Parameter?

Der 'maxClusters'-Parameter gibt die maximale Anzahl von Clustern an. Ein Alias dafür ist 'nClusters'.

Beschreibung

Das gmm-Aktionselement (Gaussian Mixture Model) in der Nonparametric Bayes-Aktionsgruppe erstellt ein Gaußsches Mischmodell.

nonParametricBayes.gmm <result=results> <status=rc> /\n alpha=double,\n attributes={{format="string", formattedLength=integer, label="string", * name="variable-name", nfd=integer, nfl=integer}, {...}},\n clusterCovOut={caslib="string", compress=TRUE | FALSE, indexVars={"variable-name-1" <, "variable-name-2", ...>}, label="string", lifetime=64-bit-integer, maxMemSize=64-bit-integer, memoryFormat="DVR" | "INHERIT" | "STANDARD", name="table-name", promote=TRUE | FALSE, replace=TRUE | FALSE, replication=integer, tableRedistUpPolicy="DEFER" | "NOREDIST" | "REBALANCE", threadBlockSize=64-bit-integer, timeStamp="string", where={"string-1" <, "string-2", ...>}},\n clusterSumOut={caslib="string", compress=TRUE | FALSE, indexVars={"variable-name-1" <, "variable-name-2", ...>}, label="string", lifetime=64-bit-integer, maxMemSize=64-bit-integer, memoryFormat="DVR" | "INHERIT" | "STANDARD", name="table-name", promote=TRUE | FALSE, replace=TRUE | FALSE, replication=integer, tableRedistUpPolicy="DEFER" | "NOREDIST" | "REBALANCE", threadBlockSize=64-bit-integer, timeStamp="string", where={"string-1" <, "string-2", ...>}},\n display={caseSensitive=TRUE | FALSE, exclude=TRUE | FALSE, excludeAll=TRUE | FALSE, keyIsPath=TRUE | FALSE, names={"string-1" <, "string-2", ...>}, pathType="LABEL" | "NAME", traceNames=TRUE | FALSE},\n freq="variable-name",\n inference={method="VB", method-specific-parameters},\n inputs={{format="string", formattedLength=integer, label="string", * name="variable-name", nfd=integer, nfl=integer}, {...}},\n maxClusters=integer,\n output={casOut={caslib="string", compress=TRUE | FALSE, indexVars={"variable-name-1" <, "variable-name-2", ...>}, label="string", lifetime=64-bit-integer, maxMemSize=64-bit-integer, memoryFormat="DVR" | "INHERIT" | "STANDARD", name="table-name", onDemand=TRUE | FALSE, promote=TRUE | FALSE, replace=TRUE | FALSE, replication=integer, tableRedistUpPolicy="DEFER" | "NOREDIST" | "REBALANCE", threadBlockSize=64-bit-integer, timeStamp="string", where={"string-1" <, "string-2", ...>}}, copyVars="ALL" | "ALL_MODEL" | "ALL_NUMERIC" | {"variable-name-1" <, "variable-name-2", ...>}},\n outputTables={groupByVarsRaw=TRUE | FALSE, includeAll=TRUE | FALSE, names={"string-1" <, "string-2", ...>} | {key-1={casouttable-1} <, key-2={casouttable-2}, ...>}, repeated=TRUE | FALSE, replace=TRUE | FALSE},\n saveState={caslib="string", label="string", lifetime=64-bit-integer, memoryFormat="DVR" | "INHERIT" | "STANDARD", name="table-name", promote=TRUE | FALSE, replace=TRUE | FALSE, tableRedistUpPolicy="DEFER" | "NOREDIST" | "REBALANCE"},\n seed=double,\n * table={caslib="string", computedOnDemand=TRUE | FALSE, computedVars={{format="string", formattedLength=integer, label="string", * name="variable-name", nfd=integer, nfl=integer}, {...}}, computedVarsProgram="string", dataSourceOptions={key-1=any-list-or-data-type-1 <, key-2=any-list-or-data-type-2, ...>}, importOptions={fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", fileType-specific-parameters}, * name="table-name", singlePass=TRUE | FALSE, vars={{format="string", formattedLength=integer, label="string", * name="variable-name", nfd=integer, nfl=integer}, {...}}, where="where-expression", whereTable={casLib="string", dataSourceOptions={adls_noreq-parameters | bigquery-parameters | cas_noreq-parameters | clouddex-parameters | db2-parameters | dnfs-parameters | esp-parameters | fedsvr-parameters | gcs_noreq-parameters | hadoop-parameters | hana-parameters | impala-parameters | informix-parameters | jdbc-parameters | mongodb-parameters | mysql-parameters | odbc-parameters | oracle-parameters | path-parameters | postgres-parameters | redshift-parameters | s3-parameters | sapiq-parameters | sforce-parameters | singlestore_standard-parameters | snowflake-parameters | spark-parameters | spde-parameters | sqlserver-parameters | ss_noreq-parameters | teradata-parameters | vertica-parameters | yellowbrick-parameters}, importOptions={fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", fileType-specific-parameters}, * name="table-name", vars={{format="string", formattedLength=integer, label="string", * name="variable-name", nfd=integer, nfl=integer}, {...}}, where="where-expression"}}\n;

Einstellungen

Parameter	Beschreibung
alpha	Legt den Konzentrationsparameter für den Dirichlet-Prozess fest.
attributes	Ändert die Attribute von Variablen, die in dieser Aktion verwendet werden. Derzeit werden Attribute, die in den Parametern 'inputs' und 'nominals' angegeben sind, ignoriert. Weitere Informationen zur Angabe des 'attributes'-Parameters finden Sie im allgemeinen 'casinvardesc'-Parameter (Anhang A: Allgemeine Parameter).
clusterCovOut	Erstellt auf dem Server eine Tabelle, die die Kovarianzmatrix jedes Clusters enthält. Weitere Informationen zur Angabe des 'clusterCovOut'-Parameters finden Sie im allgemeinen 'casouttable'-Parameter (Formular 1) (Anhang A: Allgemeine Parameter).
clusterSumOut	Erstellt auf dem Server eine Tabelle, die die Zusammenfassung der Clustering-Ergebnisse einschließlich Größe, Nachbar und Mittelwert jedes Clusters enthält. Weitere Informationen zur Angabe des 'clusterSumOut'-Parameters finden Sie im allgemeinen 'casouttable'-Parameter (Formular 1) (Anhang A: Allgemeine Parameter).
display	Gibt eine Liste von Ergebnistabellen an, die zur Anzeige an den Client gesendet werden sollen. Weitere Informationen zur Angabe des 'display'-Parameters finden Sie im allgemeinen 'displayTables'-Parameter (Anhang A: Allgemeine Parameter).
freq	Benennt die numerische Variable, die die Häufigkeit des Auftretens für jede Beobachtung enthält.
inference	Gibt die für die Analyse zu verwendende Inferenzmethode an. Der Wert, den Sie für den Parameter 'method' angeben, bestimmt die anderen anwendbaren Parameter. Für die Methode 'VB' (Variational Bayes) sind folgende Parameter verfügbar: 'covariance' (DIAGONAL \| FULL), 'maxVbIter' (64-bit-integer) und 'threshold' (double).
inputs	Gibt Variablen an, die für die Analyse verwendet werden sollen. Weitere Informationen zur Angabe des 'inputs'-Parameters finden Sie im allgemeinen 'casinvardesc'-Parameter (Anhang A: Allgemeine Parameter).
maxClusters	Gibt die maximale Anzahl von Clustern an.
output	Erstellt auf dem Server eine Tabelle, die den vorhergesagten Cluster sowie die Wahrscheinlichkeitsverteilung über alle erhaltenen Cluster für jede Beobachtung enthält. Weitere Informationen zur Angabe des 'output'-Parameters finden Sie im allgemeinen 'outputStatement'-Parameter (Anhang A: Allgemeine Parameter).
outputTables	Listet die Namen der Ergebnistabellen auf, die als CAS-Tabellen auf dem Server gespeichert werden sollen. Weitere Informationen zur Angabe des 'outputTables'-Parameters finden Sie im allgemeinen 'outputTables'-Parameter (Anhang A: Allgemeine Parameter).
saveState	Gibt die Tabelle an, in der der Modellstatus für die zukünftige Modellvorhersage gespeichert werden soll. Der 'casouttable'-Wert kann eines oder mehrere der folgenden Elemente sein: 'caslib'="string" (gibt den Namen der Caslib für die Ausgabetabelle an.), 'label'="string" (gibt das beschreibende Label an, das der Tabelle zugeordnet werden soll.), 'lifetime'=64-bit-integer (gibt die Anzahl der Sekunden an, für die die Tabelle im Speicher gehalten wird, nachdem zuletzt darauf zugegriffen wurde. Die Tabelle wird gelöscht, wenn innerhalb der angegebenen Sekunden nicht darauf zugegriffen wird. Standard: 0, Minimalwert: 0), 'memoryFormat'="DVR" \| "INHERIT" \| "STANDARD" (gibt das Speicherformat für die Ausgabetabelle an. Standard: INHERIT), 'name'="table-name" (gibt den Namen für die Ausgabetabelle an.), 'promote'=TRUE \| FALSE (bei TRUE wird die Ausgabetabelle mit globalem Geltungsbereich hinzugefügt. Dies ermöglicht anderen Sitzungen den Zugriff auf die Tabelle, vorbehaltlich der Zugriffskontrollen. Die Ziel-Caslib muss ebenfalls einen globalen Geltungsbereich haben. Standard: FALSE), 'replace'=TRUE \| FALSE (bei TRUE wird eine vorhandene Tabelle mit demselben Namen überschrieben. Standard: FALSE), 'tableRedistUpPolicy'="DEFER" \| "NOREDIST" \| "REBALANCE" (Gibt die Richtlinie zur Neuverteilung von Tabellen an, wenn die Anzahl der Worker-Pods auf einem laufenden CAS-Server erhöht wird.)
seed	Gibt eine Gleitkommazahl an, die zum Starten des Pseudozufallszahlengenerators für die Initialisierung verwendet werden soll. Standard: 0, Minimalwert: 0
table	Gibt die Eingabedatentabelle an. Der 'castable'-Wert kann eines oder mehrere der folgenden Elemente sein: 'caslib'="string" (gibt die Caslib für die Eingabetabelle an, die Sie mit der Aktion verwenden möchten. Standardmäßig wird die aktive Caslib verwendet. Geben Sie nur einen Wert an, wenn Sie auf eine Tabelle aus einer anderen Caslib zugreifen müssen.), 'computedOnDemand'=TRUE \| FALSE (bei TRUE werden die berechneten Variablen beim Laden der Tabelle anstatt beim Start der Aktion erstellt. Standard: FALSE), 'computedVars'={{casinvardesc-1} <, {casinvardesc-2}, ...>} (gibt die Namen der zu erstellenden berechneten Variablen an.), 'computedVarsProgram'="string" (gibt einen Ausdruck für jede berechnete Variable an, die Sie in den Parameter 'computedVars' aufnehmen.), 'dataSourceOptions'={key-1=any-list-or-data-type-1 <, key-2=any-list-or-data-type-2, ...>} (gibt Datenquellenoptionen an.), 'importOptions'={fileType="ANY" \| "AUDIO" \| "AUTO" \| "BASESAS" \| "CSV" \| "DELIMITED" \| "DOCUMENT" \| "DTA" \| "ESP" \| "EXCEL" \| "FMT" \| "HDAT" \| "IMAGE" \| "JMP" \| "LASR" \| "PARQUET" \| "SOUND" \| "SPSS" \| "VIDEO" \| "XLS", fileType-specific-parameters} (gibt die Einstellungen zum Lesen einer Tabelle aus einer Datenquelle an.), 'name'="table-name" (gibt den Namen der Eingabetabelle an.), 'singlePass'=TRUE \| FALSE (bei TRUE wird keine transiente Tabelle auf dem Server erstellt. Das Setzen dieses Parameters auf TRUE kann effizient sein, aber die Daten haben bei wiederholten Läufen möglicherweise keine stabile Reihenfolge. Standard: FALSE), 'vars'={{casinvardesc-1} <, {casinvardesc-2}, ...>} (gibt die in der Aktion zu verwendenden Variablen an.), 'where'="where-expression" (gibt einen Ausdruck zum Subsetting der Eingabedaten an.), 'whereTable'={groupbytable} (gibt eine Eingabetabelle an, die Zeilen enthält, die als WHERE-Filter verwendet werden sollen.)
covariance	Gibt den Typ der Kovarianzmatrix der Gaußschen Mischungen an. Standard: DIAGONAL (unter dem Inferenzmethode VB).
maxVbIter	Gibt die Anzahl der Iterationen für die variationale Bayes'sche (VB) Inferenz an (unter dem Inferenzmethode VB).
threshold	Gibt den Schwellenwert der Differenz zwischen der aktuellen und der vorherigen Wahrscheinlichkeit an (unter dem Inferenzmethode VB).

Datenaufbereitung Datenaufbereitungsblatt ansehen

Beispiel-Datenerstellung

Für die 'gmm'-Aktion sind keine spezifischen Codebeispiele zur Datenerstellung in der bereitgestellten Dokumentation enthalten. Im Allgemeinen würde man eine CAS-Tabelle mit numerischen Daten vorbereiten, die gruppiert werden sollen.

Kopiert!

1	/* Beispiel für die Erstellung einer CAS-Tabelle (Platzhalter) */
2	DATA mycas.input_data;
3	INPUT x1 x2 x3;
4	DATALINES;
5	1 2 3
6	4 5 6
7	7 8 9
8	;
9	RUN;
10

Beispiele

Ein einfaches Beispiel zur Ausführung der 'gmm'-Aktion mit einer vorgegebenen Tabelle und einer maximalen Clusteranzahl.

SAS® / CAS-Code Code wartet auf Validierung durch die Community

Kopiert!

1	PROC CAS;
2	nonParametricBayes.gmm /
3	TABLE={name="input_data"},
4	inputs={{name="x1"}, {name="x2"}},
5	maxClusters=5;
6	RUN;
7

Ergebnis :
Das Modell passt ein Gaußsches Mischmodell an die Daten an und gibt die Clustering-Ergebnisse aus.

Dieses Beispiel zeigt die Verwendung der 'gmm'-Aktion mit spezifischer Kovarianzmatrix, Anzahl der Iterationen und einem Schwellenwert für die Variational Bayes-Inferenzmethode.

SAS® / CAS-Code Code wartet auf Validierung durch die Community

Kopiert!

1	PROC CAS;
2	nonParametricBayes.gmm /
3	TABLE={name="input_data"},
4	inputs={{name="x1"}, {name="x2"}, {name="x3"}},
5	maxClusters=10,
6	inference={method="VB", covariance="FULL", maxVbIter=100, threshold=1e-6},
7	OUTPUT={casOut={name="output_clusters", replace=TRUE}, copyVars="ALL"},
8	clusterSumOut={name="cluster_summary", replace=TRUE};
9	RUN;
10

Ergebnis :
Das Modell passt ein Gaußsches Mischmodell mit der 'FULL'-Kovarianzmatrix und spezifischen VB-Inferenzparametern an. Die vorhergesagten Cluster und die Zusammenfassung der Cluster werden in Ausgabetabellen gespeichert.

FAQ

Was ist die Funktion 'gmm Action'?

Welchen Zweck hat der 'alpha'-Parameter in der 'gmm Action'?

Wie kann ich Attribute von Variablen in der 'gmm Action' ändern?

Wofür wird der Parameter 'clusterCovOut' verwendet?

Was liefert der Parameter 'clusterSumOut'?

Wofür ist der 'display'-Parameter?

Wie wird die Häufigkeit des Auftretens in der 'gmm Action' angegeben?

Wofür ist der 'inference'-Parameter?

Wie werden die Eingabevariablen für die Analyse angegeben?

Was ist der 'maxClusters'-Parameter?

Was bewirkt der 'output'-Parameter?

Wie kann ich Ergebnistabellen als CAS-Tabellen auf dem Server speichern?

Wofür wird der 'saveState'-Parameter verwendet?

Was ist der 'seed'-Parameter?

Wie gebe ich die Eingabedatentabelle an?

Welche Kovarianzmatrixtypen unterstützt die 'gmm Action' für die 'VB' (Variational Bayesian) Inferenzmethode?

Was ist 'maxVbIter' in der 'gmm Action'?

Was ist der 'threshold'-Parameter in der 'gmm Action'?

Actions associées

nonParametricBayes

gpClass

Gaußsche Prozessklassifikation (Gaussian process classification).

nonParametricBayes

gpReg

Erlernt ein Gaußsches Prozessregressionsmodell.

Inhaltsverzeichnis

Makro addvar - Textvariablen aufteilen

Beschreibung

Beispiel-Datenerstellung

Beispiele

FAQ

Actions associées

gpClass

gpReg

Inhaltsverzeichnis

Makro addvar - Textvariablen aufteilen

Beschreibung

Beispiel-Datenerstellung

Beispiele

Einfaches Gaußsches Mischmodell

Detailliertes Gaußsches Mischmodell mit Kovarianz und Schwellenwert

FAQ

Actions associées

gpClass

gpReg