dataPreprocess

impute

Descripción

Realiza la imputación de la matriz de datos (variable).

dataPreprocess.impute <result=results> <status=rc> / casOut={ caslib="string", compress=TRUE | FALSE, indexVars={"variable-name-1" <, "variable-name-2", ...>}, label="string", lifetime=64-bit-integer, maxMemSize=64-bit-integer, memoryFormat="DVR" | "INHERIT" | "STANDARD", name="table-name", promote=TRUE | FALSE, replace=TRUE | FALSE, replication=integer, tableRedistUpPolicy="DEFER" | "NOREDIST" | "REBALANCE", threadBlockSize=64-bit-integer, timeStamp="string", where={"string-1" <, "string-2", ...>} }, casOutImputeInformation={ caslib="string", compress=TRUE | FALSE, indexVars={"variable-name-1" <, "variable-name-2", ...>}, label="string", lifetime=64-bit-integer, maxMemSize=64-bit-integer, memoryFormat="DVR" | "INHERIT" | "STANDARD", name="table-name", promote=TRUE | FALSE, replace=TRUE | FALSE, replication=integer, tableRedistUpPolicy="DEFER" | "NOREDIST" | "REBALANCE", threadBlockSize=64-bit-integer, timeStamp="string", where={"string-1" <, "string-2", ...>} }, code={ casOut={ caslib="string", compress=TRUE | FALSE, indexVars={"variable-name-1" <, "variable-name-2", ...>}, label="string", lifetime=64-bit-integer, maxMemSize=64-bit-integer, memoryFormat="DVR" | "INHERIT" | "STANDARD", name="table-name", promote=TRUE | FALSE, replace=TRUE | FALSE, replication=integer, tableRedistUpPolicy="DEFER" | "NOREDIST" | "REBALANCE", threadBlockSize=64-bit-integer, timeStamp="string", where={"string-1" <, "string-2", ...>} }, comment=TRUE | FALSE, fmtWdth=integer, indentSize=integer, labelId=integer, lineSize=integer, noTrim=TRUE | FALSE, tabForm=TRUE | FALSE }, copyAllVars=TRUE | FALSE, copyVars={"variable-name-1" <, "variable-name-2", ...>}, distinctCountLimit=integer, forceMissingCount=TRUE | FALSE, freq="variable-name", fuzzyCompare=double, includeInputVars=TRUE | FALSE, includeMissingGroup=TRUE | FALSE, inputs={{ format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer }, {...}}, maxRandom=double, methodInterval="MAX" | "MEAN" | "MEDIAN" | "MIDRANGE" | "MIN" | "RANDOM" | "VALUE", methodNominal="MODE" | "VALUE", minRandom=double, nNominalVars=integer, nominalVarsIndices={integer-1 <, integer-2, ...>}, outputTableOptions={ forceTableReturn=TRUE | FALSE, tableNames={"string-1" <, "string-2", ...>} }, outVarsNamePrefix="string", outVarsNameSuffix="string", percentileDefinition=integer, percentileMaxIterations=integer, percentileTolerance=double, sasVarNameLength=TRUE | FALSE, seed=integer, table={ caslib="string", computedOnDemand=TRUE | FALSE, computedVars={{ format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer }, {...}}, computedVarsProgram="string", dataSourceOptions={key-1=any-list-or-data-type-1 <, key-2=any-list-or-data-type-2, ...>}, groupBy={{ format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer }, {...}}, groupByMode="NOSORT" | "REDISTRIBUTE", importOptions={fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", fileType-specific-parameters}, name="table-name", orderBy={{ format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer }, {...}}, singlePass=TRUE | FALSE, vars={{ format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer }, {...}}, where="where-expression", whereTable={ casLib="string", dataSourceOptions={adls_noreq-parameters | bigquery-parameters | cas_noreq-parameters | clouddex-parameters | db2-parameters | dnfs-parameters | esp-parameters | fedsvr-parameters | gcs_noreq-parameters | hadoop-parameters | hana-parameters | impala-parameters | informix-parameters | jdbc-parameters | mongodb-parameters | mysql-parameters | odbc-parameters | oracle-parameters | path-parameters | postgres-parameters | redshift-parameters | s3-parameters | sapiq-parameters | sforce-parameters | singlestore_standard-parameters | snowflake-parameters | spark-parameters | spde-parameters | sqlserver-parameters | ss_noreq-parameters | teradata-parameters | vertica-parameters | yellowbrick-parameters}, importOptions={fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", fileType-specific-parameters}, name="table-name", vars={{ format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer }, {...}}, where="where-expression" } }, valuesInterval={double-1 <, double-2, ...>}, valuesNominal={"string-1" <, "string-2", ...>}, weight="variable-name" ;
Parámetros
ParámetroDescripción
casOut Puntúa la tabla de entrada y guarda los resultados de la puntuación como una tabla.
casOutImputeInformation Especifica la configuración para una tabla de salida que incluye información sobre los resultados de la acción de imputación.
code Especifica la configuración para generar código de puntuación de paso de datos SAS.
copyAllVars Cuando se establece en Verdadero, todas las variables de la tabla de entrada se copian a la tabla de salida puntuado.
copyVars Especifica los nombres de las variables en la tabla de entrada para usar para identificar las observaciones puntuadas en la tabla de salida. Las variables especificadas se copian a la tabla de salida.
distinctCountLimit Especifica el límite de recuento distinto.
forceMissingCount Cuando se establece en Verdadero, techForCont es VALOR o ALEATORIO, y casOut no se especifica, el servidor devuelve el recuento de filas y el recuento de valores perdidos. Esto se hace incluso si requiere un pase adicional a través de los datos. Dejarlo en Falso es eficiente para tablas grandes.
freq Especifica la variable de frecuencia.
fuzzyCompare Especifica el umbral de comparación difusa que se utiliza para determinar la distinción de los valores numéricos.
includeInputVars Cuando se establece en Verdadero, las variables de análisis de la tabla de entrada que se especifican en el parámetro vars se copian a la tabla de salida.
includeMissingGroup Cuando se establece en Verdadero, se permiten valores perdidos como claves de agrupación.
inputs Especifica las variables a usar para el análisis. Puede especificar un subconjunto de las variables de la tabla de entrada.
maxRandom Especifica el número aleatorio máximo a generar.
methodInterval Especifica la técnica de imputación para variables de intervalo. Tenga en cuenta que puede especificar variables numéricas como nominales usando el parámetro nomVarsIndices. - MAX: Reemplaza los valores perdidos con el valor máximo. Esta técnica se aplica a variables de intervalo. - MEAN: Reemplaza los valores perdidos con la media. Esta técnica se aplica a variables de intervalo. - MEDIAN: Reemplaza los valores perdidos con la mediana. Esta técnica se aplica a variables de intervalo. - MIDRANGE: Reemplaza los valores perdidos con la media del valor máximo y el valor mínimo. Esta técnica se aplica a variables de intervalo. - MIN: Reemplaza los valores perdidos con el valor mínimo. Esta técnica se aplica a variables de intervalo. - RANDOM: Reemplaza los valores perdidos con números aleatorios uniformes. Esta técnica se aplica a variables de intervalo. - VALUE: Reemplaza los valores perdidos con los valores especificados en los parámetros valuesInterval y valuesNominal.
methodNominal Especifica la técnica de imputación para variables nominales. - MODE: Reemplaza los valores perdidos con la moda. Esta técnica se aplica a variables nominales. - VALUE: Reemplaza los valores perdidos con los valores especificados en los parámetros valuesInterval y valuesNominal.
minRandom Especifica el número aleatorio mínimo a generar.
nNominalVars Especifica que las últimas variables nNomVars se traten como nominales si no proporciona un valor para el parámetro nomVarsIndices.
nominalVarsIndices Especifica los índices de las variables a tratar como variables nominales.
outputTableOptions Especifica opciones para las tablas de resultados. Puede especificar qué tablas de resultados devuelve el servidor y cómo se gestionan los resultados de agrupación. - forceTableReturn: Cuando se establece en Verdadero, las tablas de resultados se devuelven al cliente incluso si la salida también se guarda como una tabla de salida. - tableNames: Especifica los nombres de las tablas de resultados a generar. Por defecto, se devuelven todas las tablas de resultados.
outVarsNamePrefix Especifica un prefijo para aplicar a los nombres de las variables de salida. Si una variable llamada 'x' da como resultado una nueva variable, el nombre generado es <prefijo>_x_<sufijo>. Puede usar este parámetro y el parámetro de sufijo al mismo tiempo.
outVarsNameSuffix Especifica un sufijo para aplicar a los nombres de las variables de salida. Si una variable llamada 'x' da como resultado una nueva variable, el nombre generado es <prefijo>_x_<sufijo>. Puede usar este parámetro y el parámetro de prefijo al mismo tiempo.
percentileDefinition Especifica la definición de percentil a usar. Las definiciones están numeradas del 1 al 6. El valor por defecto es 6.
percentileMaxIterations Especifica el número máximo de iteraciones para el cálculo de percentiles.
percentileTolerance Especifica la tolerancia para el cálculo de percentiles.
sasVarNameLength Cuando se establece en Verdadero, las longitudes de los nombres de las variables de salida están restringidas a ser menores o iguales a 32 caracteres.
seed Especifica un valor de semilla. La semilla se utiliza para generar valores aleatorios.
table Especifica el nombre de la tabla, la caslib y otros parámetros comunes.
valuesInterval Especifica una lista de valores dobles para la imputación de las variables de intervalo.
valuesNominal Especifica una lista de valores de cadena para la imputación de las variables nominales.
weight Especifica la variable de peso.

Ejemplos