dataPreprocess

impute

Description

Effectue l'imputation de matrice de données (variable).

dataPreprocess.impute <result=results> <status=rc> / casOut={ caslib="string", compress=TRUE | FALSE, indexVars={"variable-name-1" <, "variable-name-2", ...>}, label="string", lifetime=64-bit-integer, maxMemSize=64-bit-integer, memoryFormat="DVR" | "INHERIT" | "STANDARD", name="table-name", promote=TRUE | FALSE, replace=TRUE | FALSE, replication=integer, tableRedistUpPolicy="DEFER" | "NOREDIST" | "REBALANCE", threadBlockSize=64-bit-integer, timeStamp="string", where={"string-1" <, "string-2", ...>} }, casOutImputeInformation={ caslib="string", compress=TRUE | FALSE, indexVars={"variable-name-1" <, "variable-name-2", ...>}, label="string", lifetime=64-bit-integer, maxMemSize=64-bit-integer, memoryFormat="DVR" | "INHERIT" | "STANDARD", name="table-name", promote=TRUE | FALSE, replace=TRUE | FALSE, replication=integer, tableRedistUpPolicy="DEFER" | "NOREDIST" | "REBALANCE", threadBlockSize=64-bit-integer, timeStamp="string", where={"string-1" <, "string-2", ...>} }, code={ casOut={ caslib="string" compress=TRUE | FALSE indexVars={"variable-name-1" <, "variable-name-2", ...>} label="string" lifetime=64-bit-integer maxMemSize=64-bit-integer memoryFormat="DVR" | "INHERIT" | "STANDARD" name="table-name" promote=TRUE | FALSE replace=TRUE | FALSE replication=integer tableRedistUpPolicy="DEFER" | "NOREDIST" | "REBALANCE" threadBlockSize=64-bit-integer timeStamp="string" where={"string-1" <, "string-2", ...>} }, comment=TRUE | FALSE, fmtWdth=integer, indentSize=integer, labelId=integer, lineSize=integer, noTrim=TRUE | FALSE, tabForm=TRUE | FALSE }, copyAllVars=TRUE | FALSE, copyVars={"variable-name-1" <, "variable-name-2", ...>}, distinctCountLimit=integer, forceMissingCount=TRUE | FALSE, freq="variable-name", fuzzyCompare=double, includeInputVars=TRUE | FALSE, includeMissingGroup=TRUE | FALSE, inputs={{ format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}, {...}}, maxRandom=double, methodInterval="MAX" | "MEAN" | "MEDIAN" | "MIDRANGE" | "MIN" | "RANDOM" | "VALUE", methodNominal="MODE" | "VALUE", minRandom=double, nNominalVars=integer, nominalVarsIndices={integer-1 <, integer-2, ...>}, outputTableOptions={ forceTableReturn=TRUE | FALSE, tableNames={"string-1" <, "string-2", ...>} }, outVarsNamePrefix="string", outVarsNameSuffix="string", percentileDefinition=integer, percentileMaxIterations=integer, percentileTolerance=double, sasVarNameLength=TRUE | FALSE, seed=integer, table={ caslib="string", computedOnDemand=TRUE | FALSE, computedVars={{ format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}, {...}}, computedVarsProgram="string", dataSourceOptions={key-1=any-list-or-data-type-1 <, key-2=any-list-or-data-type-2, ...>}, groupBy={{ format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}, {...}}, groupByMode="NOSORT" | "REDISTRIBUTE", importOptions={fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", fileType-specific-parameters}, name="table-name", orderBy={{ format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}, {...}}, singlePass=TRUE | FALSE, vars={{ format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}, {...}}, where="where-expression", whereTable={ casLib="string" dataSourceOptions={adls_noreq-parameters | bigquery-parameters | cas_noreq-parameters | clouddex-parameters | db2-parameters | dnfs-parameters | esp-parameters | fedsvr-parameters | gcs_noreq-parameters | hadoop-parameters | hana-parameters | impala-parameters | informix-parameters | jdbc-parameters | mongodb-parameters | mysql-parameters | odbc-parameters | oracle-parameters | path-parameters | postgres-parameters | redshift-parameters | s3-parameters | sapiq-parameters | sforce-parameters | singlestore_standard-parameters | snowflake-parameters | spark-parameters | spde-parameters | sqlserver-parameters | ss_noreq-parameters | teradata-parameters | vertica-parameters | yellowbrick-parameters} importOptions={fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", fileType-specific-parameters} name="table-name" vars={{ format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}, {...}} where="where-expression" } }, valuesInterval={double-1 <, double-2, ...>}, valuesNominal={"string-1" <, "string-2", ...>}, weight="variable-name" ;
Paramètres
ParamètreDescription
casOut Scoren la table d'entrée et enregistre les résultats de score sous forme de table. Pour plus d'informations sur la spécification du paramètre casOut, consultez le paramètre commun casouttable.
casOutImputeInformation Spécifie les paramètres d'une table de sortie qui inclut des informations sur les résultats de l'action impute. Pour plus d'informations sur la spécification du paramètre casOutImputeInformation, consultez le paramètre commun casouttable. Alias : casOutImputeInfo.
code Spécifie les paramètres pour la génération de code de score d'étape de données SAS. Pour plus d'informations sur la spécification du paramètre code, consultez le paramètre commun codegen.
copyAllVars Lorsque True, toutes les variables de la table d'entrée sont copiées dans la table de sortie scorée. Alias : allIdVars. Valeur par défaut : FALSE.
copyVars Spécifie les noms des variables dans la table d'entrée à utiliser pour identifier les observations scorées dans la table de sortie. Les variables spécifiées sont copiées dans la table de sortie.
distinctCountLimit Spécifie la limite du nombre distinct.
forceMissingCount Lorsque True, techForCont est VALUE ou RANDOM, et casOut n'est pas spécifié, le serveur renvoie le nombre de lignes et le nombre de valeurs manquantes. Ceci est fait même si cela nécessite un passage supplémentaire à travers les données. Le fait de laisser à False est efficace pour les grandes tables. Valeur par défaut : FALSE.
freq Spécifie la variable de fréquence. Alias : frequency.
fuzzyCompare Spécifie le seuil de comparaison floue utilisé pour déterminer le caractère distinct des valeurs numériques. Alias : precision. Plage : 0–1E-05.
includeInputVars Lorsque True, les variables d'analyse de la table d'entrée spécifiées dans le paramètre vars sont copiées dans la table de sortie. Valeur par défaut : FALSE.
includeMissingGroup Lorsque True, les valeurs manquantes sont autorisées comme clés de regroupement. Valeur par défaut : FALSE.
inputs Spécifie les variables à utiliser pour l'analyse. Vous pouvez spécifier un sous-ensemble des variables de la table d'entrée. Pour plus d'informations sur la spécification du paramètre inputs, consultez le paramètre commun casinvardesc. Alias : vars.
maxRandom Spécifie le nombre aléatoire maximal à générer.
methodInterval Spécifie la technique d'imputation pour les variables d'intervalle. Notez que vous pouvez spécifier des variables numériques comme nominales en utilisant le paramètre nomVarsIndices. Alias : methodContinuous. Valeur par défaut : MEAN.
MAX Remplace les valeurs manquantes par la valeur maximale. Cette technique s'applique aux variables d'intervalle.
MEAN Remplace les valeurs manquantes par la moyenne. Cette technique s'applique aux variables d'intervalle.
MEDIAN Remplace les valeurs manquantes par la médiane. Cette technique s'applique aux variables d'intervalle.
MIDRANGE Remplace les valeurs manquantes par la moyenne de la valeur maximale et de la valeur minimale. Cette technique s'applique aux variables d'intervalle.
MIN Remplace les valeurs manquantes par la valeur minimale. Cette technique s'applique aux variables d'intervalle.
RANDOM Remplace les valeurs manquantes par des nombres aléatoires uniformes. Cette technique s'applique aux variables d'intervalle.
VALUE Remplace les valeurs manquantes par les valeurs spécifiées dans les paramètres valuesInterval et valuesNominal.
methodNominal Spécifie la technique d'imputation pour les variables nominales.
MODE Remplace les valeurs manquantes par le mode. Cette technique s'applique aux variables nominales.
VALUE Remplace les valeurs manquantes par les valeurs spécifiées dans les paramètres valuesInterval et valuesNominal.
minRandom Spécifie le nombre aléatoire minimal à générer.
nNominalVars Spécifie de traiter les nNomVars dernières variables comme nominales si vous ne fournissez pas de valeur pour le paramètre nomVarsIndices. Valeur minimale (exclusive) : 0.
nominalVarsIndices Spécifie les indices des variables à traiter comme variables nominales.
outputTableOptions Spécifie les options pour les tables de résultats. Vous pouvez spécifier quelles tables de résultats le serveur renvoie et comment les résultats de regroupement sont gérés. Alias : tblOpts.
forceTableReturn Lorsque True, les tables de résultats sont renvoyées au client même si la sortie est également enregistrée en tant que table de sortie. Valeur par défaut : FALSE.
tableNames Spécifie les noms des tables de résultats à générer. Par défaut, toutes les tables de résultats sont renvoyées. Alias : outputTables.
outVarsNamePrefix Spécifie un préfixe à appliquer aux noms des variables de sortie. Si une variable nommée 'x' entraîne une nouvelle variable, le nom généré est <préfixe>_x_<suffixe>. Vous pouvez utiliser ce paramètre et le paramètre suffixe en même temps. Valeur par défaut : "imp".
outVarsNameSuffix Spécifie un suffixe à appliquer aux noms des variables de sortie. Si une variable nommée 'x' entraîne une nouvelle variable, le nom généré est <préfixe>_x_<suffixe>. Vous pouvez utiliser ce paramètre et le paramètre préfixe en même temps.
percentileDefinition Spécifie la définition du percentile à utiliser. Les définitions sont numérotées de 1 à 6. La valeur par défaut est 6. Alias : pctlDef. Plage : 1–6.
percentileMaxIterations Spécifie le nombre maximal d'itérations pour le calcul du percentile. Alias : pctlMaxIters.
percentileTolerance Spécifie la tolérance pour le calcul du percentile. Alias : pctlEpsilon. Valeur par défaut : 1E-05.
sasVarNameLength Lorsque True, les longueurs des noms des variables de sortie sont limitées à 32 caractères ou moins. Valeur par défaut : FALSE.
seed Spécifie une valeur de départ. La valeur de départ est utilisée pour générer des valeurs aléatoires. Valeur par défaut : 0.
table Spécifie le nom de la table, la caslib et d'autres paramètres communs. Pour plus d'informations sur la spécification du paramètre table, consultez le paramètre commun castable.
valuesInterval Spécifie une liste de valeurs doubles pour l'imputation des variables d'intervalle. Alias : valuesContinuous, valuesNumeric.
valuesNominal Spécifie une liste de valeurs de chaîne pour l'imputation des variables nominales. Alias : valuesNonNumeric.
weight Spécifie la variable de poids.

Exemples

FAQ

Que fait l'action "impute" du jeu d'actions Data Preprocess?
À quoi sert le paramètre casOut?
À quoi sert le paramètre casOutImputeInformation?
Que fait le paramètre code?
Quand faut-il utiliser copyAllVars?
Quel est l'objectif du paramètre copyVars?
Que représente distinctCountLimit?
Dans quel cas forceMissingCount doit-il être défini sur "True"?
À quoi sert le paramètre freq?
Quel est le rôle de fuzzyCompare?
Que se passe-t-il si includeInputVars est défini sur "True"?
Quand includeMissingGroup doit-il être "True"?
Quel est l'objectif du paramètre inputs?
À quoi correspond maxRandom?
Quelles sont les techniques d'imputation pour les variables d'intervalle disponibles avec methodInterval?
Quelles sont les techniques d'imputation pour les variables nominales disponibles avec methodNominal?
Que signifie minRandom?
À quoi sert nNominalVars?
Que spécifie nominalVarsIndices?
Quelles options offre outputTableOptions?
Comment outVarsNamePrefix affecte-t-il les noms des variables de sortie?
Comment outVarsNameSuffix affecte-t-il les noms des variables de sortie?
Que définit percentileDefinition?
Quel est le but de percentileMaxIterations?
Que détermine percentileTolerance?
Quand sasVarNameLength est-il utile?
À quoi sert le paramètre seed?
Quel est le rôle du paramètre table?
Que spécifie valuesInterval?
Que spécifie valuesNominal?
À quoi sert le paramètre weight?
Quel est le rôle de l'action impute dans l'ensemble d'actions 'Data Preprocess' ?
Quel est l'alias du paramètre 'casOutImputeInformation' et sa description ?
À quoi sert le paramètre 'copyAllVars' ?
Comment puis-je spécifier les variables à copier dans la table de sortie ?
Que fait le paramètre 'forceMissingCount' ?
Quel est l'alias du paramètre 'freq' et à quoi sert-il ?
Comment fonctionne le paramètre 'fuzzyCompare' ?
Quand le paramètre 'includeInputVars' doit-il être utilisé ?
À quoi sert 'includeMissingGroup' ?
Quel est l'alias du paramètre 'inputs' ?
Quel est le rôle du paramètre 'maxRandom' ?
Quelles sont les techniques d'imputation disponibles pour les variables d'intervalle avec 'methodInterval' ?
Quelles sont les techniques d'imputation disponibles pour les variables nominales avec 'methodNominal' ?
Quel est le rôle du paramètre 'minRandom' ?
Comment puis-je spécifier le nombre de variables nominales ?
Que sont les 'nominalVarsIndices' ?
Quel est l'alias du paramètre 'outputTableOptions' et que peut-il configurer ?
Comment ajouter un préfixe aux noms des variables de sortie ?
Comment ajouter un suffixe aux noms des variables de sortie ?
Comment est définie la centile avec 'percentileDefinition' ?
Quel est le rôle de 'percentileMaxIterations' ?
Que signifie le paramètre 'percentileTolerance' ?
Quand 'sasVarNameLength' est-il pertinent ?
À quoi sert le paramètre 'seed' ?
Quel est le paramètre 'table' et à quoi sert-il ?
Comment spécifier les valeurs d'imputation pour les variables d'intervalle ?
Comment spécifier les valeurs d'imputation pour les variables nominales ?
Quel est le rôle du paramètre 'weight' ?