dataPreprocess

impute

Description

Effectue l'imputation de matrice de données (variable).

dataPreprocess.impute <result=results> <status=rc> / casOut={ caslib="string", compress=TRUE | FALSE, indexVars={"variable-name-1" <, "variable-name-2", ...>}, label="string", lifetime=64-bit-integer, maxMemSize=64-bit-integer, memoryFormat="DVR" | "INHERIT" | "STANDARD", name="table-name", promote=TRUE | FALSE, replace=TRUE | FALSE, replication=integer, tableRedistUpPolicy="DEFER" | "NOREDIST" | "REBALANCE", threadBlockSize=64-bit-integer, timeStamp="string", where={"string-1" <, "string-2", ...>} }, casOutImputeInformation={ caslib="string", compress=TRUE | FALSE, indexVars={"variable-name-1" <, "variable-name-2", ...>}, label="string", lifetime=64-bit-integer, maxMemSize=64-bit-integer, memoryFormat="DVR" | "INHERIT" | "STANDARD", name="table-name", promote=TRUE | FALSE, replace=TRUE | FALSE, replication=integer, tableRedistUpPolicy="DEFER" | "NOREDIST" | "REBALANCE", threadBlockSize=64-bit-integer, timeStamp="string", where={"string-1" <, "string-2", ...>} }, code={ casOut={ caslib="string" compress=TRUE | FALSE indexVars={"variable-name-1" <, "variable-name-2", ...>} label="string" lifetime=64-bit-integer maxMemSize=64-bit-integer memoryFormat="DVR" | "INHERIT" | "STANDARD" name="table-name" promote=TRUE | FALSE replace=TRUE | FALSE replication=integer tableRedistUpPolicy="DEFER" | "NOREDIST" | "REBALANCE" threadBlockSize=64-bit-integer timeStamp="string" where={"string-1" <, "string-2", ...>} }, comment=TRUE | FALSE, fmtWdth=integer, indentSize=integer, labelId=integer, lineSize=integer, noTrim=TRUE | FALSE, tabForm=TRUE | FALSE }, copyAllVars=TRUE | FALSE, copyVars={"variable-name-1" <, "variable-name-2", ...>}, distinctCountLimit=integer, forceMissingCount=TRUE | FALSE, freq="variable-name", fuzzyCompare=double, includeInputVars=TRUE | FALSE, includeMissingGroup=TRUE | FALSE, inputs={{ format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}, {...}}, maxRandom=double, methodInterval="MAX" | "MEAN" | "MEDIAN" | "MIDRANGE" | "MIN" | "RANDOM" | "VALUE", methodNominal="MODE" | "VALUE", minRandom=double, nNominalVars=integer, nominalVarsIndices={integer-1 <, integer-2, ...>}, outputTableOptions={ forceTableReturn=TRUE | FALSE, tableNames={"string-1" <, "string-2", ...>} }, outVarsNamePrefix="string", outVarsNameSuffix="string", percentileDefinition=integer, percentileMaxIterations=integer, percentileTolerance=double, sasVarNameLength=TRUE | FALSE, seed=integer, table={ caslib="string", computedOnDemand=TRUE | FALSE, computedVars={{ format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}, {...}}, computedVarsProgram="string", dataSourceOptions={key-1=any-list-or-data-type-1 <, key-2=any-list-or-data-type-2, ...>}, groupBy={{ format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}, {...}}, groupByMode="NOSORT" | "REDISTRIBUTE", importOptions={fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", fileType-specific-parameters}, name="table-name", orderBy={{ format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}, {...}}, singlePass=TRUE | FALSE, vars={{ format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}, {...}}, where="where-expression", whereTable={ casLib="string" dataSourceOptions={adls_noreq-parameters | bigquery-parameters | cas_noreq-parameters | clouddex-parameters | db2-parameters | dnfs-parameters | esp-parameters | fedsvr-parameters | gcs_noreq-parameters | hadoop-parameters | hana-parameters | impala-parameters | informix-parameters | jdbc-parameters | mongodb-parameters | mysql-parameters | odbc-parameters | oracle-parameters | path-parameters | postgres-parameters | redshift-parameters | s3-parameters | sapiq-parameters | sforce-parameters | singlestore_standard-parameters | snowflake-parameters | spark-parameters | spde-parameters | sqlserver-parameters | ss_noreq-parameters | teradata-parameters | vertica-parameters | yellowbrick-parameters} importOptions={fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", fileType-specific-parameters} name="table-name" vars={{ format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}, {...}} where="where-expression" } }, valuesInterval={double-1 <, double-2, ...>}, valuesNominal={"string-1" <, "string-2", ...>}, weight="variable-name" ;
Paramètres
ParamètreDescription
casOutScoren la table d'entrée et enregistre les résultats de score sous forme de table. Pour plus d'informations sur la spécification du paramètre casOut, consultez le paramètre commun casouttable.
casOutImputeInformationSpécifie les paramètres d'une table de sortie qui inclut des informations sur les résultats de l'action impute. Pour plus d'informations sur la spécification du paramètre casOutImputeInformation, consultez le paramètre commun casouttable. Alias : casOutImputeInfo.
codeSpécifie les paramètres pour la génération de code de score d'étape de données SAS. Pour plus d'informations sur la spécification du paramètre code, consultez le paramètre commun codegen.
copyAllVarsLorsque True, toutes les variables de la table d'entrée sont copiées dans la table de sortie scorée. Alias : allIdVars. Valeur par défaut : FALSE.
copyVarsSpécifie les noms des variables dans la table d'entrée à utiliser pour identifier les observations scorées dans la table de sortie. Les variables spécifiées sont copiées dans la table de sortie.
distinctCountLimitSpécifie la limite du nombre distinct.
forceMissingCountLorsque True, techForCont est VALUE ou RANDOM, et casOut n'est pas spécifié, le serveur renvoie le nombre de lignes et le nombre de valeurs manquantes. Ceci est fait même si cela nécessite un passage supplémentaire à travers les données. Le fait de laisser à False est efficace pour les grandes tables. Valeur par défaut : FALSE.
freqSpécifie la variable de fréquence. Alias : frequency.
fuzzyCompareSpécifie le seuil de comparaison floue utilisé pour déterminer le caractère distinct des valeurs numériques. Alias : precision. Plage : 0–1E-05.
includeInputVarsLorsque True, les variables d'analyse de la table d'entrée spécifiées dans le paramètre vars sont copiées dans la table de sortie. Valeur par défaut : FALSE.
includeMissingGroupLorsque True, les valeurs manquantes sont autorisées comme clés de regroupement. Valeur par défaut : FALSE.
inputsSpécifie les variables à utiliser pour l'analyse. Vous pouvez spécifier un sous-ensemble des variables de la table d'entrée. Pour plus d'informations sur la spécification du paramètre inputs, consultez le paramètre commun casinvardesc. Alias : vars.
maxRandomSpécifie le nombre aléatoire maximal à générer.
methodIntervalSpécifie la technique d'imputation pour les variables d'intervalle. Notez que vous pouvez spécifier des variables numériques comme nominales en utilisant le paramètre nomVarsIndices. Alias : methodContinuous. Valeur par défaut : MEAN.
MAXRemplace les valeurs manquantes par la valeur maximale. Cette technique s'applique aux variables d'intervalle.
MEANRemplace les valeurs manquantes par la moyenne. Cette technique s'applique aux variables d'intervalle.
MEDIANRemplace les valeurs manquantes par la médiane. Cette technique s'applique aux variables d'intervalle.
MIDRANGERemplace les valeurs manquantes par la moyenne de la valeur maximale et de la valeur minimale. Cette technique s'applique aux variables d'intervalle.
MINRemplace les valeurs manquantes par la valeur minimale. Cette technique s'applique aux variables d'intervalle.
RANDOMRemplace les valeurs manquantes par des nombres aléatoires uniformes. Cette technique s'applique aux variables d'intervalle.
VALUERemplace les valeurs manquantes par les valeurs spécifiées dans les paramètres valuesInterval et valuesNominal.
methodNominalSpécifie la technique d'imputation pour les variables nominales.
MODERemplace les valeurs manquantes par le mode. Cette technique s'applique aux variables nominales.
VALUERemplace les valeurs manquantes par les valeurs spécifiées dans les paramètres valuesInterval et valuesNominal.
minRandomSpécifie le nombre aléatoire minimal à générer.
nNominalVarsSpécifie de traiter les nNomVars dernières variables comme nominales si vous ne fournissez pas de valeur pour le paramètre nomVarsIndices. Valeur minimale (exclusive) : 0.
nominalVarsIndicesSpécifie les indices des variables à traiter comme variables nominales.
outputTableOptionsSpécifie les options pour les tables de résultats. Vous pouvez spécifier quelles tables de résultats le serveur renvoie et comment les résultats de regroupement sont gérés. Alias : tblOpts.
forceTableReturnLorsque True, les tables de résultats sont renvoyées au client même si la sortie est également enregistrée en tant que table de sortie. Valeur par défaut : FALSE.
tableNamesSpécifie les noms des tables de résultats à générer. Par défaut, toutes les tables de résultats sont renvoyées. Alias : outputTables.
outVarsNamePrefixSpécifie un préfixe à appliquer aux noms des variables de sortie. Si une variable nommée 'x' entraîne une nouvelle variable, le nom généré est <préfixe>_x_<suffixe>. Vous pouvez utiliser ce paramètre et le paramètre suffixe en même temps. Valeur par défaut : "imp".
outVarsNameSuffixSpécifie un suffixe à appliquer aux noms des variables de sortie. Si une variable nommée 'x' entraîne une nouvelle variable, le nom généré est <préfixe>_x_<suffixe>. Vous pouvez utiliser ce paramètre et le paramètre préfixe en même temps.
percentileDefinitionSpécifie la définition du percentile à utiliser. Les définitions sont numérotées de 1 à 6. La valeur par défaut est 6. Alias : pctlDef. Plage : 1–6.
percentileMaxIterationsSpécifie le nombre maximal d'itérations pour le calcul du percentile. Alias : pctlMaxIters.
percentileToleranceSpécifie la tolérance pour le calcul du percentile. Alias : pctlEpsilon. Valeur par défaut : 1E-05.
sasVarNameLengthLorsque True, les longueurs des noms des variables de sortie sont limitées à 32 caractères ou moins. Valeur par défaut : FALSE.
seedSpécifie une valeur de départ. La valeur de départ est utilisée pour générer des valeurs aléatoires. Valeur par défaut : 0.
tableSpécifie le nom de la table, la caslib et d'autres paramètres communs. Pour plus d'informations sur la spécification du paramètre table, consultez le paramètre commun castable.
valuesIntervalSpécifie une liste de valeurs doubles pour l'imputation des variables d'intervalle. Alias : valuesContinuous, valuesNumeric.
valuesNominalSpécifie une liste de valeurs de chaîne pour l'imputation des variables nominales. Alias : valuesNonNumeric.
weightSpécifie la variable de poids.

Exemples

FAQ

Que fait l'action "impute" du jeu d'actions Data Preprocess?
À quoi sert le paramètre casOut?
À quoi sert le paramètre casOutImputeInformation?
Que fait le paramètre code?
Quand faut-il utiliser copyAllVars?
Quel est l'objectif du paramètre copyVars?
Que représente distinctCountLimit?
Dans quel cas forceMissingCount doit-il être défini sur "True"?
À quoi sert le paramètre freq?
Quel est le rôle de fuzzyCompare?
Que se passe-t-il si includeInputVars est défini sur "True"?
Quand includeMissingGroup doit-il être "True"?
Quel est l'objectif du paramètre inputs?
À quoi correspond maxRandom?
Quelles sont les techniques d'imputation pour les variables d'intervalle disponibles avec methodInterval?
Quelles sont les techniques d'imputation pour les variables nominales disponibles avec methodNominal?
Que signifie minRandom?
À quoi sert nNominalVars?
Que spécifie nominalVarsIndices?
Quelles options offre outputTableOptions?
Comment outVarsNamePrefix affecte-t-il les noms des variables de sortie?
Comment outVarsNameSuffix affecte-t-il les noms des variables de sortie?
Que définit percentileDefinition?
Quel est le but de percentileMaxIterations?
Que détermine percentileTolerance?
Quand sasVarNameLength est-il utile?
À quoi sert le paramètre seed?
Quel est le rôle du paramètre table?
Que spécifie valuesInterval?
Que spécifie valuesNominal?
À quoi sert le paramètre weight?
Quel est le rôle de l'action impute dans l'ensemble d'actions 'Data Preprocess' ?
Quel est l'alias du paramètre 'casOutImputeInformation' et sa description ?
À quoi sert le paramètre 'copyAllVars' ?
Comment puis-je spécifier les variables à copier dans la table de sortie ?
Que fait le paramètre 'forceMissingCount' ?
Quel est l'alias du paramètre 'freq' et à quoi sert-il ?
Comment fonctionne le paramètre 'fuzzyCompare' ?
Quand le paramètre 'includeInputVars' doit-il être utilisé ?
À quoi sert 'includeMissingGroup' ?
Quel est l'alias du paramètre 'inputs' ?
Quel est le rôle du paramètre 'maxRandom' ?
Quelles sont les techniques d'imputation disponibles pour les variables d'intervalle avec 'methodInterval' ?
Quelles sont les techniques d'imputation disponibles pour les variables nominales avec 'methodNominal' ?
Quel est le rôle du paramètre 'minRandom' ?
Comment puis-je spécifier le nombre de variables nominales ?
Que sont les 'nominalVarsIndices' ?
Quel est l'alias du paramètre 'outputTableOptions' et que peut-il configurer ?
Comment ajouter un préfixe aux noms des variables de sortie ?
Comment ajouter un suffixe aux noms des variables de sortie ?
Comment est définie la centile avec 'percentileDefinition' ?
Quel est le rôle de 'percentileMaxIterations' ?
Que signifie le paramètre 'percentileTolerance' ?
Quand 'sasVarNameLength' est-il pertinent ?
À quoi sert le paramètre 'seed' ?
Quel est le paramètre 'table' et à quoi sert-il ?
Comment spécifier les valeurs d'imputation pour les variables d'intervalle ?
Comment spécifier les valeurs d'imputation pour les variables nominales ?
Quel est le rôle du paramètre 'weight' ?