impute - WeAreCAS

Inhaltsverzeichnis

Codes SAS Liés

Fehlende Werte mit der LAG-Funktion imputieren

Beispiel für Multiple Imputation mit PROC MI

Dokumentationsbeispiel 18 für PROC MI

EM-Schätzung mit PROC MI für Daten mit fehlenden Werten

Multiple Imputation mit PROC MI

Multiple Imputation mit PROC MI für Fischdaten

Beispiel für Multiple Imputation mit PROC MI

Beispiel für multiple Imputation mit PROC MI

Konfiguration des SAS EM Erweiterungsknotens (Spektrale Clusterbildung)

Beschreibung

Führt die Imputation von Datenmatrizen (Variablen) durch.

dataPreprocess.impute <result=results> <status=rc> / casOut={ caslib="string", compress=TRUE | FALSE, indexVars={"variable-name-1" <, "variable-name-2", ...>}, label="string", lifetime=64-bit-integer, maxMemSize=64-bit-integer, memoryFormat="DVR" | "INHERIT" | "STANDARD", name="table-name", promote=TRUE | FALSE, replace=TRUE | FALSE, replication=integer, tableRedistUpPolicy="DEFER" | "NOREDIST" | "REBALANCE", threadBlockSize=64-bit-integer, timeStamp="string", where={"string-1" <, "string-2", ...>} }, casOutImputeInformation={ caslib="string", compress=TRUE | FALSE, indexVars={"variable-name-1" <, "variable-name-2", ...>}, label="string", lifetime=64-bit-integer, maxMemSize=64-bit-integer, memoryFormat="DVR" | "INHERIT" | "STANDARD", name="table-name", promote=TRUE | FALSE, replace=TRUE | FALSE, replication=integer, tableRedistUpPolicy="DEFER" | "NOREDIST" | "REBALANCE", threadBlockSize=64-bit-integer, timeStamp="string", where={"string-1" <, "string-2", ...>} }, code={ casOut={ caslib="string", compress=TRUE | FALSE, indexVars={"variable-name-1" <, "variable-name-2", ...>}, label="string", lifetime=64-bit-integer, maxMemSize=64-bit-integer, memoryFormat="DVR" | "INHERIT" | "STANDARD", name="table-name", promote=TRUE | FALSE, replace=TRUE | FALSE, replication=integer, tableRedistUpPolicy="DEFER" | "NOREDIST" | "REBALANCE", threadBlockSize=64-bit-integer, timeStamp="string", where={"string-1" <, "string-2", ...>} }, comment=TRUE | FALSE, fmtWdth=integer, indentSize=integer, labelId=integer, lineSize=integer, noTrim=TRUE | FALSE, tabForm=TRUE | FALSE }, copyAllVars=TRUE | FALSE, copyVars={"variable-name-1" <, "variable-name-2", ...>}, distinctCountLimit=integer, forceMissingCount=TRUE | FALSE, freq="variable-name", fuzzyCompare=double, includeInputVars=TRUE | FALSE, includeMissingGroup=TRUE | FALSE, inputs={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer }, {...}}, maxRandom=double, methodInterval="MAX" | "MEAN" | "MEDIAN" | "MIDRANGE" | "MIN" | "RANDOM" | "VALUE", methodNominal="MODE" | "VALUE", minRandom=double, nNominalVars=integer, nominalVarsIndices={integer-1 <, integer-2, ...>}, outputTableOptions={ forceTableReturn=TRUE | FALSE, tableNames={"string-1" <, "string-2", ...>} }, outVarsNamePrefix="string", outVarsNameSuffix="string", percentileDefinition=integer, percentileMaxIterations=integer, percentileTolerance=double, sasVarNameLength=TRUE | FALSE, seed=integer, table={ caslib="string", computedOnDemand=TRUE | FALSE, computedVars={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer }, {...}}, computedVarsProgram="string", dataSourceOptions={key-1=any-list-or-data-type-1 <, key-2=any-list-or-data-type-2, ...>}, groupBy={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer }, {...}}, groupByMode="NOSORT" | "REDISTRIBUTE", importOptions={fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", fileType-specific-parameters}, name="table-name", orderBy={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer }, {...}}, singlePass=TRUE | FALSE, vars={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer }, {...}}, where="where-expression", whereTable={casLib="string", dataSourceOptions={adls_noreq-parameters | bigquery-parameters | cas_noreq-parameters | clouddex-parameters | db2-parameters | dnfs-parameters | esp-parameters | fedsvr-parameters | gcs_noreq-parameters | hadoop-parameters | hana-parameters | impala-parameters | informix-parameters | jdbc-parameters | mongodb-parameters | mysql-parameters | odbc-parameters | oracle-parameters | path-parameters | postgres-parameters | redshift-parameters | s3-parameters | sapiq-parameters | sforce-parameters | singlestore_standard-parameters | snowflake-parameters | spark-parameters | spde-parameters | sqlserver-parameters | ss_noreq-parameters | teradata-parameters | vertica-parameters | yellowbrick-parameters}, importOptions={fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", fileType-specific-parameters}, name="table-name", vars={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer }, {...}}, where="where-expression" } }, valuesInterval={double-1 <, double-2, ...>}, valuesNominal={"string-1" <, "string-2", ...>}, weight="variable-name" ;

Einstellungen

Parameter	Beschreibung
casOut	bewertet die Eingabetabelle und speichert die Bewertungsergebnisse als Tabelle. Weitere Informationen zum Angeben des Parameters casOut finden Sie im gemeinsamen Parameter casouttable.
casOutImputeInformation	gibt die Einstellungen für eine Ausgabetabelle an, die Informationen zu den Ergebnissen der Imputationsaktion enthält. Weitere Informationen zum Angeben des Parameters casOutImputeInformation finden Sie im gemeinsamen Parameter casouttable. Alias: casOutImputeInfo
code	gibt die Einstellungen für die Generierung von SAS DATA-Schritt-Bewertungscode an. Weitere Informationen zum Angeben des Parameters code finden Sie im gemeinsamen Parameter codegen.
copyAllVars	wenn auf True gesetzt, werden alle Variablen aus der Eingabetabelle in die bewertete Ausgabetabelle kopiert. Alias: allIdVars Standard: FALSE
copyVars	gibt die Namen der Variablen in der Eingabetabelle an, die zur Identifizierung bewerteter Beobachtungen in der Ausgabetabelle verwendet werden sollen. Die angegebenen Variablen werden in die Ausgabetabelle kopiert.
distinctCountLimit	gibt das Limit für die Anzahl der unterschiedlichen Werte an.
forceMissingCount	wenn auf True gesetzt, techForCont ist VALUE oder RANDOM und casOut ist nicht angegeben, gibt der Server die Zeilenanzahl und die Anzahl der fehlenden Werte zurück. Dies geschieht auch dann, wenn ein zusätzlicher Durchlauf durch die Daten erforderlich ist. Wenn der Wert False bleibt, ist dies für große Tabellen effizient. Standard: FALSE
freq	gibt die Häufigkeitsvariable an. Alias: frequency
fuzzyCompare	gibt den Schwellenwert für den Fuzzy-Vergleich an, der zur Bestimmung der Eindeutigkeit numerischer Werte verwendet wird. Alias: precision Bereich: 0–1E-05
includeInputVars	wenn auf True gesetzt, werden die in den Vars-Parametern angegebenen Analysevariablen aus der Eingabetabelle in die Ausgabetabelle kopiert. Standard: FALSE
includeMissingGroup	wenn auf True gesetzt, sind fehlende Werte als Gruppierungsschlüssel zulässig. Standard: FALSE
inputs	gibt die Variablen an, die für die Analyse verwendet werden sollen. Sie können eine Untermenge der Variablen aus der Eingabetabelle angeben. Weitere Informationen zum Angeben des Inputs-Parameters finden Sie im gemeinsamen Parameter casinvardesc. Alias: vars
maxRandom	gibt die maximal zu generierende Zufallszahl an.
methodInterval	gibt die Imputationsmethode für Intervallvariablen an. Beachten Sie, dass Sie numerische Variablen mithilfe des Parameters nomVarsIndices als nominal angeben können. Alias: methodContinuous Standard: MEAN MAX: ersetzt fehlende Werte durch den Maximalwert. Diese Technik gilt für Intervallvariablen. MEAN: ersetzt fehlende Werte durch den Mittelwert. Diese Technik gilt für Intervallvariablen. MEDIAN: ersetzt fehlende Werte durch den Median. Diese Technik gilt für Intervallvariablen. MIDRANGE: ersetzt fehlende Werte durch den Mittelwert aus Maximal- und Minimalwert. Diese Technik gilt für Intervallvariablen. MIN: ersetzt fehlende Werte durch den Minimalwert. Diese Technik gilt für Intervallvariablen. RANDOM: ersetzt fehlende Werte durch gleichmäßige Zufallszahlen. Diese Technik gilt für Intervallvariablen. VALUE: ersetzt fehlende Werte durch die in den Parametern valuesInterval und valuesNominal angegebenen Werte.
methodNominal	gibt die Imputationsmethode für Nominalvariablen an. MODE: ersetzt fehlende Werte durch den Modus. Diese Technik gilt für Nominalvariablen. VALUE: ersetzt fehlende Werte durch die in den Parametern valuesInterval und valuesNominal angegebenen Werte.
minRandom	gibt die minimal zu generierende Zufallszahl an.
nNominalVars	gibt an, dass die letzten nNomVars Variablen als nominal behandelt werden sollen, wenn Sie keinen Wert für den Parameter nomVarsIndices angeben. Minimalwert (exklusiv): 0
nominalVarsIndices	gibt die Indizes der Variablen an, die als Nominalvariablen behandelt werden sollen.
outputTableOptions	gibt Optionen für Ergebnistabellen an. Sie können angeben, welche Ergebnistabellen der Server zurückgibt und wie Gruppierungsergebnisse behandelt werden. Alias: tblOpts forceTableReturn: wenn auf True gesetzt, werden Ergebnistabellen an den Client zurückgegeben, auch wenn die Ausgabe auch als Ausgabetabelle gespeichert wird. Standard: FALSE tableNames: gibt die Namen der zu generierenden Ergebnistabellen an. Standardmäßig werden alle Ergebnistabellen zurückgegeben. Alias: outputTables
outVarsNamePrefix	gibt ein Präfix an, das auf die Namen der Ausgabevariablen angewendet werden soll. Wenn eine Variable namens 'x' zu einer neuen Variablen führt, lautet der generierte Name <prefix>_x_<suffix>. Sie können diesen Parameter und den Suffixparameter gleichzeitig verwenden. Standard: "imp"
outVarsNameSuffix	gibt ein Suffix an, das auf die Namen der Ausgabevariablen angewendet werden soll. Wenn eine Variable namens 'x' zu einer neuen Variablen führt, lautet der generierte Name <prefix>_x_<suffix>. Sie können diesen Parameter und den Präfixparameter gleichzeitig verwenden.
percentileDefinition	gibt die zu verwendende Perzentildefinition an. Die Definitionen sind von 1 bis 6 nummeriert. Der Standardwert ist 6. Alias: pctlDef Bereich: 1–6
percentileMaxIterations	gibt die maximale Anzahl von Iterationen für die Perzentilberechnung an. Alias: pctlMaxIters
percentileTolerance	gibt die Toleranz für die Perzentilberechnung an. Alias: pctlEpsilon Standard: 1E-05
sasVarNameLength	wenn auf True gesetzt, sind die Längen der Namen der Ausgabevariablen auf maximal 32 Zeichen beschränkt. Standard: FALSE
seed	gibt einen Startwert (Seed) an. Der Seed wird verwendet, um Zufallswerte zu generieren. Standard: 0
table	gibt den Tabellennamen, die Caslib und andere gemeinsame Parameter an. Weitere Informationen zum Angeben des Tabellenparameters finden Sie im gemeinsamen Parameter castable.
valuesInterval	gibt eine Liste von Double-Werten für die Imputation von Intervallvariablen an. Aliase: valuesContinuous, valuesNumeric
valuesNominal	gibt eine Liste von String-Werten für die Imputation von Nominalvariablen an. Aliase: valuesNonNumeric
weight	gibt die Gewichtungsvariable an.

Beispiele

Actions associées

dataPreprocess

binning

Führt eine unüberwachte Variablendiskretisierung durch. Diese Aktion ist nütz...

dataPreprocess

catTrans

Gruppiert und kodiert kategoriale Variablen unter Verwendung von unbeaufsicht...

dataPreprocess

highCardinality

Die Aktion 'dataPreprocess.highCardinality' führt eine randomisierte Kardinal...

datapreprocess

histogram

Erzeugt Histogramm-Bins und einfache bin-basierte Statistiken für numerische ...