dataPreprocess

impute

Beschreibung

Führt die Imputation von Datenmatrizen (Variablen) durch.

dataPreprocess.impute <result=results> <status=rc> / casOut={ caslib="string", compress=TRUE | FALSE, indexVars={"variable-name-1" <, "variable-name-2", ...>}, label="string", lifetime=64-bit-integer, maxMemSize=64-bit-integer, memoryFormat="DVR" | "INHERIT" | "STANDARD", name="table-name", promote=TRUE | FALSE, replace=TRUE | FALSE, replication=integer, tableRedistUpPolicy="DEFER" | "NOREDIST" | "REBALANCE", threadBlockSize=64-bit-integer, timeStamp="string", where={"string-1" <, "string-2", ...>} }, casOutImputeInformation={ caslib="string", compress=TRUE | FALSE, indexVars={"variable-name-1" <, "variable-name-2", ...>}, label="string", lifetime=64-bit-integer, maxMemSize=64-bit-integer, memoryFormat="DVR" | "INHERIT" | "STANDARD", name="table-name", promote=TRUE | FALSE, replace=TRUE | FALSE, replication=integer, tableRedistUpPolicy="DEFER" | "NOREDIST" | "REBALANCE", threadBlockSize=64-bit-integer, timeStamp="string", where={"string-1" <, "string-2", ...>} }, code={ casOut={ caslib="string", compress=TRUE | FALSE, indexVars={"variable-name-1" <, "variable-name-2", ...>}, label="string", lifetime=64-bit-integer, maxMemSize=64-bit-integer, memoryFormat="DVR" | "INHERIT" | "STANDARD", name="table-name", promote=TRUE | FALSE, replace=TRUE | FALSE, replication=integer, tableRedistUpPolicy="DEFER" | "NOREDIST" | "REBALANCE", threadBlockSize=64-bit-integer, timeStamp="string", where={"string-1" <, "string-2", ...>} }, comment=TRUE | FALSE, fmtWdth=integer, indentSize=integer, labelId=integer, lineSize=integer, noTrim=TRUE | FALSE, tabForm=TRUE | FALSE }, copyAllVars=TRUE | FALSE, copyVars={"variable-name-1" <, "variable-name-2", ...>}, distinctCountLimit=integer, forceMissingCount=TRUE | FALSE, freq="variable-name", fuzzyCompare=double, includeInputVars=TRUE | FALSE, includeMissingGroup=TRUE | FALSE, inputs={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer }, {...}}, maxRandom=double, methodInterval="MAX" | "MEAN" | "MEDIAN" | "MIDRANGE" | "MIN" | "RANDOM" | "VALUE", methodNominal="MODE" | "VALUE", minRandom=double, nNominalVars=integer, nominalVarsIndices={integer-1 <, integer-2, ...>}, outputTableOptions={ forceTableReturn=TRUE | FALSE, tableNames={"string-1" <, "string-2", ...>} }, outVarsNamePrefix="string", outVarsNameSuffix="string", percentileDefinition=integer, percentileMaxIterations=integer, percentileTolerance=double, sasVarNameLength=TRUE | FALSE, seed=integer, table={ caslib="string", computedOnDemand=TRUE | FALSE, computedVars={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer }, {...}}, computedVarsProgram="string", dataSourceOptions={key-1=any-list-or-data-type-1 <, key-2=any-list-or-data-type-2, ...>}, groupBy={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer }, {...}}, groupByMode="NOSORT" | "REDISTRIBUTE", importOptions={fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", fileType-specific-parameters}, name="table-name", orderBy={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer }, {...}}, singlePass=TRUE | FALSE, vars={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer }, {...}}, where="where-expression", whereTable={casLib="string", dataSourceOptions={adls_noreq-parameters | bigquery-parameters | cas_noreq-parameters | clouddex-parameters | db2-parameters | dnfs-parameters | esp-parameters | fedsvr-parameters | gcs_noreq-parameters | hadoop-parameters | hana-parameters | impala-parameters | informix-parameters | jdbc-parameters | mongodb-parameters | mysql-parameters | odbc-parameters | oracle-parameters | path-parameters | postgres-parameters | redshift-parameters | s3-parameters | sapiq-parameters | sforce-parameters | singlestore_standard-parameters | snowflake-parameters | spark-parameters | spde-parameters | sqlserver-parameters | ss_noreq-parameters | teradata-parameters | vertica-parameters | yellowbrick-parameters}, importOptions={fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", fileType-specific-parameters}, name="table-name", vars={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer }, {...}}, where="where-expression" } }, valuesInterval={double-1 <, double-2, ...>}, valuesNominal={"string-1" <, "string-2", ...>}, weight="variable-name" ;
Einstellungen
ParameterBeschreibung
casOut bewertet die Eingabetabelle und speichert die Bewertungsergebnisse als Tabelle. Weitere Informationen zum Angeben des Parameters casOut finden Sie im gemeinsamen Parameter casouttable.
casOutImputeInformation gibt die Einstellungen für eine Ausgabetabelle an, die Informationen zu den Ergebnissen der Imputationsaktion enthält. Weitere Informationen zum Angeben des Parameters casOutImputeInformation finden Sie im gemeinsamen Parameter casouttable. Alias: casOutImputeInfo
code gibt die Einstellungen für die Generierung von SAS DATA-Schritt-Bewertungscode an. Weitere Informationen zum Angeben des Parameters code finden Sie im gemeinsamen Parameter codegen.
copyAllVars wenn auf True gesetzt, werden alle Variablen aus der Eingabetabelle in die bewertete Ausgabetabelle kopiert. Alias: allIdVars Standard: FALSE
copyVars gibt die Namen der Variablen in der Eingabetabelle an, die zur Identifizierung bewerteter Beobachtungen in der Ausgabetabelle verwendet werden sollen. Die angegebenen Variablen werden in die Ausgabetabelle kopiert.
distinctCountLimit gibt das Limit für die Anzahl der unterschiedlichen Werte an.
forceMissingCount wenn auf True gesetzt, techForCont ist VALUE oder RANDOM und casOut ist nicht angegeben, gibt der Server die Zeilenanzahl und die Anzahl der fehlenden Werte zurück. Dies geschieht auch dann, wenn ein zusätzlicher Durchlauf durch die Daten erforderlich ist. Wenn der Wert False bleibt, ist dies für große Tabellen effizient. Standard: FALSE
freq gibt die Häufigkeitsvariable an. Alias: frequency
fuzzyCompare gibt den Schwellenwert für den Fuzzy-Vergleich an, der zur Bestimmung der Eindeutigkeit numerischer Werte verwendet wird. Alias: precision Bereich: 0–1E-05
includeInputVars wenn auf True gesetzt, werden die in den Vars-Parametern angegebenen Analysevariablen aus der Eingabetabelle in die Ausgabetabelle kopiert. Standard: FALSE
includeMissingGroup wenn auf True gesetzt, sind fehlende Werte als Gruppierungsschlüssel zulässig. Standard: FALSE
inputs gibt die Variablen an, die für die Analyse verwendet werden sollen. Sie können eine Untermenge der Variablen aus der Eingabetabelle angeben. Weitere Informationen zum Angeben des Inputs-Parameters finden Sie im gemeinsamen Parameter casinvardesc. Alias: vars
maxRandom gibt die maximal zu generierende Zufallszahl an.
methodInterval gibt die Imputationsmethode für Intervallvariablen an. Beachten Sie, dass Sie numerische Variablen mithilfe des Parameters nomVarsIndices als nominal angeben können. Alias: methodContinuous Standard: MEAN MAX: ersetzt fehlende Werte durch den Maximalwert. Diese Technik gilt für Intervallvariablen. MEAN: ersetzt fehlende Werte durch den Mittelwert. Diese Technik gilt für Intervallvariablen. MEDIAN: ersetzt fehlende Werte durch den Median. Diese Technik gilt für Intervallvariablen. MIDRANGE: ersetzt fehlende Werte durch den Mittelwert aus Maximal- und Minimalwert. Diese Technik gilt für Intervallvariablen. MIN: ersetzt fehlende Werte durch den Minimalwert. Diese Technik gilt für Intervallvariablen. RANDOM: ersetzt fehlende Werte durch gleichmäßige Zufallszahlen. Diese Technik gilt für Intervallvariablen. VALUE: ersetzt fehlende Werte durch die in den Parametern valuesInterval und valuesNominal angegebenen Werte.
methodNominal gibt die Imputationsmethode für Nominalvariablen an. MODE: ersetzt fehlende Werte durch den Modus. Diese Technik gilt für Nominalvariablen. VALUE: ersetzt fehlende Werte durch die in den Parametern valuesInterval und valuesNominal angegebenen Werte.
minRandom gibt die minimal zu generierende Zufallszahl an.
nNominalVars gibt an, dass die letzten nNomVars Variablen als nominal behandelt werden sollen, wenn Sie keinen Wert für den Parameter nomVarsIndices angeben. Minimalwert (exklusiv): 0
nominalVarsIndices gibt die Indizes der Variablen an, die als Nominalvariablen behandelt werden sollen.
outputTableOptions gibt Optionen für Ergebnistabellen an. Sie können angeben, welche Ergebnistabellen der Server zurückgibt und wie Gruppierungsergebnisse behandelt werden. Alias: tblOpts forceTableReturn: wenn auf True gesetzt, werden Ergebnistabellen an den Client zurückgegeben, auch wenn die Ausgabe auch als Ausgabetabelle gespeichert wird. Standard: FALSE tableNames: gibt die Namen der zu generierenden Ergebnistabellen an. Standardmäßig werden alle Ergebnistabellen zurückgegeben. Alias: outputTables
outVarsNamePrefix gibt ein Präfix an, das auf die Namen der Ausgabevariablen angewendet werden soll. Wenn eine Variable namens 'x' zu einer neuen Variablen führt, lautet der generierte Name <prefix>_x_<suffix>. Sie können diesen Parameter und den Suffixparameter gleichzeitig verwenden. Standard: "imp"
outVarsNameSuffix gibt ein Suffix an, das auf die Namen der Ausgabevariablen angewendet werden soll. Wenn eine Variable namens 'x' zu einer neuen Variablen führt, lautet der generierte Name <prefix>_x_<suffix>. Sie können diesen Parameter und den Präfixparameter gleichzeitig verwenden.
percentileDefinition gibt die zu verwendende Perzentildefinition an. Die Definitionen sind von 1 bis 6 nummeriert. Der Standardwert ist 6. Alias: pctlDef Bereich: 1–6
percentileMaxIterations gibt die maximale Anzahl von Iterationen für die Perzentilberechnung an. Alias: pctlMaxIters
percentileTolerance gibt die Toleranz für die Perzentilberechnung an. Alias: pctlEpsilon Standard: 1E-05
sasVarNameLength wenn auf True gesetzt, sind die Längen der Namen der Ausgabevariablen auf maximal 32 Zeichen beschränkt. Standard: FALSE
seed gibt einen Startwert (Seed) an. Der Seed wird verwendet, um Zufallswerte zu generieren. Standard: 0
table gibt den Tabellennamen, die Caslib und andere gemeinsame Parameter an. Weitere Informationen zum Angeben des Tabellenparameters finden Sie im gemeinsamen Parameter castable.
valuesInterval gibt eine Liste von Double-Werten für die Imputation von Intervallvariablen an. Aliase: valuesContinuous, valuesNumeric
valuesNominal gibt eine Liste von String-Werten für die Imputation von Nominalvariablen an. Aliase: valuesNonNumeric
weight gibt die Gewichtungsvariable an.

Beispiele