nonParametricBayes

gmm

Beschreibung

Das gmm-Aktionselement (Gaussian Mixture Model) in der Nonparametric Bayes-Aktionsgruppe erstellt ein Gaußsches Mischmodell.

nonParametricBayes.gmm <result=results> <status=rc> /\n alpha=double,\n attributes={{format="string", formattedLength=integer, label="string", * name="variable-name", nfd=integer, nfl=integer}, {...}},\n clusterCovOut={caslib="string", compress=TRUE | FALSE, indexVars={"variable-name-1" <, "variable-name-2", ...>}, label="string", lifetime=64-bit-integer, maxMemSize=64-bit-integer, memoryFormat="DVR" | "INHERIT" | "STANDARD", name="table-name", promote=TRUE | FALSE, replace=TRUE | FALSE, replication=integer, tableRedistUpPolicy="DEFER" | "NOREDIST" | "REBALANCE", threadBlockSize=64-bit-integer, timeStamp="string", where={"string-1" <, "string-2", ...>}},\n clusterSumOut={caslib="string", compress=TRUE | FALSE, indexVars={"variable-name-1" <, "variable-name-2", ...>}, label="string", lifetime=64-bit-integer, maxMemSize=64-bit-integer, memoryFormat="DVR" | "INHERIT" | "STANDARD", name="table-name", promote=TRUE | FALSE, replace=TRUE | FALSE, replication=integer, tableRedistUpPolicy="DEFER" | "NOREDIST" | "REBALANCE", threadBlockSize=64-bit-integer, timeStamp="string", where={"string-1" <, "string-2", ...>}},\n display={caseSensitive=TRUE | FALSE, exclude=TRUE | FALSE, excludeAll=TRUE | FALSE, keyIsPath=TRUE | FALSE, names={"string-1" <, "string-2", ...>}, pathType="LABEL" | "NAME", traceNames=TRUE | FALSE},\n freq="variable-name",\n inference={method="VB", method-specific-parameters},\n inputs={{format="string", formattedLength=integer, label="string", * name="variable-name", nfd=integer, nfl=integer}, {...}},\n maxClusters=integer,\n output={casOut={caslib="string", compress=TRUE | FALSE, indexVars={"variable-name-1" <, "variable-name-2", ...>}, label="string", lifetime=64-bit-integer, maxMemSize=64-bit-integer, memoryFormat="DVR" | "INHERIT" | "STANDARD", name="table-name", onDemand=TRUE | FALSE, promote=TRUE | FALSE, replace=TRUE | FALSE, replication=integer, tableRedistUpPolicy="DEFER" | "NOREDIST" | "REBALANCE", threadBlockSize=64-bit-integer, timeStamp="string", where={"string-1" <, "string-2", ...>}}, copyVars="ALL" | "ALL_MODEL" | "ALL_NUMERIC" | {"variable-name-1" <, "variable-name-2", ...>}},\n outputTables={groupByVarsRaw=TRUE | FALSE, includeAll=TRUE | FALSE, names={"string-1" <, "string-2", ...>} | {key-1={casouttable-1} <, key-2={casouttable-2}, ...>}, repeated=TRUE | FALSE, replace=TRUE | FALSE},\n saveState={caslib="string", label="string", lifetime=64-bit-integer, memoryFormat="DVR" | "INHERIT" | "STANDARD", name="table-name", promote=TRUE | FALSE, replace=TRUE | FALSE, tableRedistUpPolicy="DEFER" | "NOREDIST" | "REBALANCE"},\n seed=double,\n * table={caslib="string", computedOnDemand=TRUE | FALSE, computedVars={{format="string", formattedLength=integer, label="string", * name="variable-name", nfd=integer, nfl=integer}, {...}}, computedVarsProgram="string", dataSourceOptions={key-1=any-list-or-data-type-1 <, key-2=any-list-or-data-type-2, ...>}, importOptions={fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", fileType-specific-parameters}, * name="table-name", singlePass=TRUE | FALSE, vars={{format="string", formattedLength=integer, label="string", * name="variable-name", nfd=integer, nfl=integer}, {...}}, where="where-expression", whereTable={casLib="string", dataSourceOptions={adls_noreq-parameters | bigquery-parameters | cas_noreq-parameters | clouddex-parameters | db2-parameters | dnfs-parameters | esp-parameters | fedsvr-parameters | gcs_noreq-parameters | hadoop-parameters | hana-parameters | impala-parameters | informix-parameters | jdbc-parameters | mongodb-parameters | mysql-parameters | odbc-parameters | oracle-parameters | path-parameters | postgres-parameters | redshift-parameters | s3-parameters | sapiq-parameters | sforce-parameters | singlestore_standard-parameters | snowflake-parameters | spark-parameters | spde-parameters | sqlserver-parameters | ss_noreq-parameters | teradata-parameters | vertica-parameters | yellowbrick-parameters}, importOptions={fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", fileType-specific-parameters}, * name="table-name", vars={{format="string", formattedLength=integer, label="string", * name="variable-name", nfd=integer, nfl=integer}, {...}}, where="where-expression"}}\n;
Einstellungen
ParameterBeschreibung
alphaLegt den Konzentrationsparameter für den Dirichlet-Prozess fest.
attributesÄndert die Attribute von Variablen, die in dieser Aktion verwendet werden. Derzeit werden Attribute, die in den Parametern 'inputs' und 'nominals' angegeben sind, ignoriert. Weitere Informationen zur Angabe des 'attributes'-Parameters finden Sie im allgemeinen 'casinvardesc'-Parameter (Anhang A: Allgemeine Parameter).
clusterCovOutErstellt auf dem Server eine Tabelle, die die Kovarianzmatrix jedes Clusters enthält. Weitere Informationen zur Angabe des 'clusterCovOut'-Parameters finden Sie im allgemeinen 'casouttable'-Parameter (Formular 1) (Anhang A: Allgemeine Parameter).
clusterSumOutErstellt auf dem Server eine Tabelle, die die Zusammenfassung der Clustering-Ergebnisse einschließlich Größe, Nachbar und Mittelwert jedes Clusters enthält. Weitere Informationen zur Angabe des 'clusterSumOut'-Parameters finden Sie im allgemeinen 'casouttable'-Parameter (Formular 1) (Anhang A: Allgemeine Parameter).
displayGibt eine Liste von Ergebnistabellen an, die zur Anzeige an den Client gesendet werden sollen. Weitere Informationen zur Angabe des 'display'-Parameters finden Sie im allgemeinen 'displayTables'-Parameter (Anhang A: Allgemeine Parameter).
freqBenennt die numerische Variable, die die Häufigkeit des Auftretens für jede Beobachtung enthält.
inferenceGibt die für die Analyse zu verwendende Inferenzmethode an. Der Wert, den Sie für den Parameter 'method' angeben, bestimmt die anderen anwendbaren Parameter. Für die Methode 'VB' (Variational Bayes) sind folgende Parameter verfügbar: 'covariance' (DIAGONAL | FULL), 'maxVbIter' (64-bit-integer) und 'threshold' (double).
inputsGibt Variablen an, die für die Analyse verwendet werden sollen. Weitere Informationen zur Angabe des 'inputs'-Parameters finden Sie im allgemeinen 'casinvardesc'-Parameter (Anhang A: Allgemeine Parameter).
maxClustersGibt die maximale Anzahl von Clustern an.
outputErstellt auf dem Server eine Tabelle, die den vorhergesagten Cluster sowie die Wahrscheinlichkeitsverteilung über alle erhaltenen Cluster für jede Beobachtung enthält. Weitere Informationen zur Angabe des 'output'-Parameters finden Sie im allgemeinen 'outputStatement'-Parameter (Anhang A: Allgemeine Parameter).
outputTablesListet die Namen der Ergebnistabellen auf, die als CAS-Tabellen auf dem Server gespeichert werden sollen. Weitere Informationen zur Angabe des 'outputTables'-Parameters finden Sie im allgemeinen 'outputTables'-Parameter (Anhang A: Allgemeine Parameter).
saveStateGibt die Tabelle an, in der der Modellstatus für die zukünftige Modellvorhersage gespeichert werden soll. Der 'casouttable'-Wert kann eines oder mehrere der folgenden Elemente sein: 'caslib'="string" (gibt den Namen der Caslib für die Ausgabetabelle an.), 'label'="string" (gibt das beschreibende Label an, das der Tabelle zugeordnet werden soll.), 'lifetime'=64-bit-integer (gibt die Anzahl der Sekunden an, für die die Tabelle im Speicher gehalten wird, nachdem zuletzt darauf zugegriffen wurde. Die Tabelle wird gelöscht, wenn innerhalb der angegebenen Sekunden nicht darauf zugegriffen wird. Standard: 0, Minimalwert: 0), 'memoryFormat'="DVR" | "INHERIT" | "STANDARD" (gibt das Speicherformat für die Ausgabetabelle an. Standard: INHERIT), 'name'="table-name" (gibt den Namen für die Ausgabetabelle an.), 'promote'=TRUE | FALSE (bei TRUE wird die Ausgabetabelle mit globalem Geltungsbereich hinzugefügt. Dies ermöglicht anderen Sitzungen den Zugriff auf die Tabelle, vorbehaltlich der Zugriffskontrollen. Die Ziel-Caslib muss ebenfalls einen globalen Geltungsbereich haben. Standard: FALSE), 'replace'=TRUE | FALSE (bei TRUE wird eine vorhandene Tabelle mit demselben Namen überschrieben. Standard: FALSE), 'tableRedistUpPolicy'="DEFER" | "NOREDIST" | "REBALANCE" (Gibt die Richtlinie zur Neuverteilung von Tabellen an, wenn die Anzahl der Worker-Pods auf einem laufenden CAS-Server erhöht wird.)
seedGibt eine Gleitkommazahl an, die zum Starten des Pseudozufallszahlengenerators für die Initialisierung verwendet werden soll. Standard: 0, Minimalwert: 0
tableGibt die Eingabedatentabelle an. Der 'castable'-Wert kann eines oder mehrere der folgenden Elemente sein: 'caslib'="string" (gibt die Caslib für die Eingabetabelle an, die Sie mit der Aktion verwenden möchten. Standardmäßig wird die aktive Caslib verwendet. Geben Sie nur einen Wert an, wenn Sie auf eine Tabelle aus einer anderen Caslib zugreifen müssen.), 'computedOnDemand'=TRUE | FALSE (bei TRUE werden die berechneten Variablen beim Laden der Tabelle anstatt beim Start der Aktion erstellt. Standard: FALSE), 'computedVars'={{casinvardesc-1} <, {casinvardesc-2}, ...>} (gibt die Namen der zu erstellenden berechneten Variablen an.), 'computedVarsProgram'="string" (gibt einen Ausdruck für jede berechnete Variable an, die Sie in den Parameter 'computedVars' aufnehmen.), 'dataSourceOptions'={key-1=any-list-or-data-type-1 <, key-2=any-list-or-data-type-2, ...>} (gibt Datenquellenoptionen an.), 'importOptions'={fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", fileType-specific-parameters} (gibt die Einstellungen zum Lesen einer Tabelle aus einer Datenquelle an.), 'name'="table-name" (gibt den Namen der Eingabetabelle an.), 'singlePass'=TRUE | FALSE (bei TRUE wird keine transiente Tabelle auf dem Server erstellt. Das Setzen dieses Parameters auf TRUE kann effizient sein, aber die Daten haben bei wiederholten Läufen möglicherweise keine stabile Reihenfolge. Standard: FALSE), 'vars'={{casinvardesc-1} <, {casinvardesc-2}, ...>} (gibt die in der Aktion zu verwendenden Variablen an.), 'where'="where-expression" (gibt einen Ausdruck zum Subsetting der Eingabedaten an.), 'whereTable'={groupbytable} (gibt eine Eingabetabelle an, die Zeilen enthält, die als WHERE-Filter verwendet werden sollen.)
covarianceGibt den Typ der Kovarianzmatrix der Gaußschen Mischungen an. Standard: DIAGONAL (unter dem Inferenzmethode VB).
maxVbIterGibt die Anzahl der Iterationen für die variationale Bayes'sche (VB) Inferenz an (unter dem Inferenzmethode VB).
thresholdGibt den Schwellenwert der Differenz zwischen der aktuellen und der vorherigen Wahrscheinlichkeit an (unter dem Inferenzmethode VB).
Beispiel-Datenerstellung

Für die 'gmm'-Aktion sind keine spezifischen Codebeispiele zur Datenerstellung in der bereitgestellten Dokumentation enthalten. Im Allgemeinen würde man eine CAS-Tabelle mit numerischen Daten vorbereiten, die gruppiert werden sollen.

Kopiert!
1/* Beispiel für die Erstellung einer CAS-Tabelle (Platzhalter) */
2DATA mycas.input_data;
3 INPUT x1 x2 x3;
4 DATALINES;
51 2 3
64 5 6
77 8 9
8;
9RUN;
10 

Beispiele

Ein einfaches Beispiel zur Ausführung der 'gmm'-Aktion mit einer vorgegebenen Tabelle und einer maximalen Clusteranzahl.

SAS® / CAS-Code Code wartet auf Validierung durch die Community
Kopiert!
1PROC CAS;
2 nonParametricBayes.gmm /
3 TABLE={name="input_data"},
4 inputs={{name="x1"}, {name="x2"}},
5 maxClusters=5;
6RUN;
7 
Ergebnis :
Das Modell passt ein Gaußsches Mischmodell an die Daten an und gibt die Clustering-Ergebnisse aus.

Dieses Beispiel zeigt die Verwendung der 'gmm'-Aktion mit spezifischer Kovarianzmatrix, Anzahl der Iterationen und einem Schwellenwert für die Variational Bayes-Inferenzmethode.

SAS® / CAS-Code Code wartet auf Validierung durch die Community
Kopiert!
1PROC CAS;
2 nonParametricBayes.gmm /
3 TABLE={name="input_data"},
4 inputs={{name="x1"}, {name="x2"}, {name="x3"}},
5 maxClusters=10,
6 inference={method="VB", covariance="FULL", maxVbIter=100, threshold=1e-6},
7 OUTPUT={casOut={name="output_clusters", replace=TRUE}, copyVars="ALL"},
8 clusterSumOut={name="cluster_summary", replace=TRUE};
9RUN;
10 
Ergebnis :
Das Modell passt ein Gaußsches Mischmodell mit der 'FULL'-Kovarianzmatrix und spezifischen VB-Inferenzparametern an. Die vorhergesagten Cluster und die Zusammenfassung der Cluster werden in Ausgabetabellen gespeichert.

FAQ

Was ist die Funktion 'gmm Action'?
Welchen Zweck hat der 'alpha'-Parameter in der 'gmm Action'?
Wie kann ich Attribute von Variablen in der 'gmm Action' ändern?
Wofür wird der Parameter 'clusterCovOut' verwendet?
Was liefert der Parameter 'clusterSumOut'?
Wofür ist der 'display'-Parameter?
Wie wird die Häufigkeit des Auftretens in der 'gmm Action' angegeben?
Wofür ist der 'inference'-Parameter?
Wie werden die Eingabevariablen für die Analyse angegeben?
Was ist der 'maxClusters'-Parameter?
Was bewirkt der 'output'-Parameter?
Wie kann ich Ergebnistabellen als CAS-Tabellen auf dem Server speichern?
Wofür wird der 'saveState'-Parameter verwendet?
Was ist der 'seed'-Parameter?
Wie gebe ich die Eingabedatentabelle an?
Welche Kovarianzmatrixtypen unterstützt die 'gmm Action' für die 'VB' (Variational Bayesian) Inferenzmethode?
Was ist 'maxVbIter' in der 'gmm Action'?
Was ist der 'threshold'-Parameter in der 'gmm Action'?