impute - WeAreCAS

Tabla de contenidos

Codes SAS Liés

Imputar valores faltantes con la función LAG

Ejemplo de Imputación Múltiple con PROC MI

Ejemplo 18 de documentación para PROC MI

Estimación EM con PROC MI para datos con valores faltantes

Imputación Múltiple con PROC MI

Imputación múltiple con PROC MI en datos de peces

Ejemplo de Imputación Múltiple con PROC MI

Configuración del Nodo de Extensión SAS EM (Clustering Espectral)

Ejemplo de Documentación 19 para PROC MI

Descripción

Realiza la imputación de la matriz de datos (variable).

dataPreprocess.impute <result=results> <status=rc> / casOut={ caslib="string", compress=TRUE | FALSE, indexVars={"variable-name-1" <, "variable-name-2", ...>}, label="string", lifetime=64-bit-integer, maxMemSize=64-bit-integer, memoryFormat="DVR" | "INHERIT" | "STANDARD", name="table-name", promote=TRUE | FALSE, replace=TRUE | FALSE, replication=integer, tableRedistUpPolicy="DEFER" | "NOREDIST" | "REBALANCE", threadBlockSize=64-bit-integer, timeStamp="string", where={"string-1" <, "string-2", ...>} }, casOutImputeInformation={ caslib="string", compress=TRUE | FALSE, indexVars={"variable-name-1" <, "variable-name-2", ...>}, label="string", lifetime=64-bit-integer, maxMemSize=64-bit-integer, memoryFormat="DVR" | "INHERIT" | "STANDARD", name="table-name", promote=TRUE | FALSE, replace=TRUE | FALSE, replication=integer, tableRedistUpPolicy="DEFER" | "NOREDIST" | "REBALANCE", threadBlockSize=64-bit-integer, timeStamp="string", where={"string-1" <, "string-2", ...>} }, code={ casOut={ caslib="string", compress=TRUE | FALSE, indexVars={"variable-name-1" <, "variable-name-2", ...>}, label="string", lifetime=64-bit-integer, maxMemSize=64-bit-integer, memoryFormat="DVR" | "INHERIT" | "STANDARD", name="table-name", promote=TRUE | FALSE, replace=TRUE | FALSE, replication=integer, tableRedistUpPolicy="DEFER" | "NOREDIST" | "REBALANCE", threadBlockSize=64-bit-integer, timeStamp="string", where={"string-1" <, "string-2", ...>} }, comment=TRUE | FALSE, fmtWdth=integer, indentSize=integer, labelId=integer, lineSize=integer, noTrim=TRUE | FALSE, tabForm=TRUE | FALSE }, copyAllVars=TRUE | FALSE, copyVars={"variable-name-1" <, "variable-name-2", ...>}, distinctCountLimit=integer, forceMissingCount=TRUE | FALSE, freq="variable-name", fuzzyCompare=double, includeInputVars=TRUE | FALSE, includeMissingGroup=TRUE | FALSE, inputs={{ format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer }, {...}}, maxRandom=double, methodInterval="MAX" | "MEAN" | "MEDIAN" | "MIDRANGE" | "MIN" | "RANDOM" | "VALUE", methodNominal="MODE" | "VALUE", minRandom=double, nNominalVars=integer, nominalVarsIndices={integer-1 <, integer-2, ...>}, outputTableOptions={ forceTableReturn=TRUE | FALSE, tableNames={"string-1" <, "string-2", ...>} }, outVarsNamePrefix="string", outVarsNameSuffix="string", percentileDefinition=integer, percentileMaxIterations=integer, percentileTolerance=double, sasVarNameLength=TRUE | FALSE, seed=integer, table={ caslib="string", computedOnDemand=TRUE | FALSE, computedVars={{ format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer }, {...}}, computedVarsProgram="string", dataSourceOptions={key-1=any-list-or-data-type-1 <, key-2=any-list-or-data-type-2, ...>}, groupBy={{ format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer }, {...}}, groupByMode="NOSORT" | "REDISTRIBUTE", importOptions={fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", fileType-specific-parameters}, name="table-name", orderBy={{ format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer }, {...}}, singlePass=TRUE | FALSE, vars={{ format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer }, {...}}, where="where-expression", whereTable={ casLib="string", dataSourceOptions={adls_noreq-parameters | bigquery-parameters | cas_noreq-parameters | clouddex-parameters | db2-parameters | dnfs-parameters | esp-parameters | fedsvr-parameters | gcs_noreq-parameters | hadoop-parameters | hana-parameters | impala-parameters | informix-parameters | jdbc-parameters | mongodb-parameters | mysql-parameters | odbc-parameters | oracle-parameters | path-parameters | postgres-parameters | redshift-parameters | s3-parameters | sapiq-parameters | sforce-parameters | singlestore_standard-parameters | snowflake-parameters | spark-parameters | spde-parameters | sqlserver-parameters | ss_noreq-parameters | teradata-parameters | vertica-parameters | yellowbrick-parameters}, importOptions={fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", fileType-specific-parameters}, name="table-name", vars={{ format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer }, {...}}, where="where-expression" } }, valuesInterval={double-1 <, double-2, ...>}, valuesNominal={"string-1" <, "string-2", ...>}, weight="variable-name" ;

Parámetros

Parámetro	Descripción
casOut	Puntúa la tabla de entrada y guarda los resultados de la puntuación como una tabla.
casOutImputeInformation	Especifica la configuración para una tabla de salida que incluye información sobre los resultados de la acción de imputación.
code	Especifica la configuración para generar código de puntuación de paso de datos SAS.
copyAllVars	Cuando se establece en Verdadero, todas las variables de la tabla de entrada se copian a la tabla de salida puntuado.
copyVars	Especifica los nombres de las variables en la tabla de entrada para usar para identificar las observaciones puntuadas en la tabla de salida. Las variables especificadas se copian a la tabla de salida.
distinctCountLimit	Especifica el límite de recuento distinto.
forceMissingCount	Cuando se establece en Verdadero, techForCont es VALOR o ALEATORIO, y casOut no se especifica, el servidor devuelve el recuento de filas y el recuento de valores perdidos. Esto se hace incluso si requiere un pase adicional a través de los datos. Dejarlo en Falso es eficiente para tablas grandes.
freq	Especifica la variable de frecuencia.
fuzzyCompare	Especifica el umbral de comparación difusa que se utiliza para determinar la distinción de los valores numéricos.
includeInputVars	Cuando se establece en Verdadero, las variables de análisis de la tabla de entrada que se especifican en el parámetro vars se copian a la tabla de salida.
includeMissingGroup	Cuando se establece en Verdadero, se permiten valores perdidos como claves de agrupación.
inputs	Especifica las variables a usar para el análisis. Puede especificar un subconjunto de las variables de la tabla de entrada.
maxRandom	Especifica el número aleatorio máximo a generar.
methodInterval	Especifica la técnica de imputación para variables de intervalo. Tenga en cuenta que puede especificar variables numéricas como nominales usando el parámetro nomVarsIndices. - MAX: Reemplaza los valores perdidos con el valor máximo. Esta técnica se aplica a variables de intervalo. - MEAN: Reemplaza los valores perdidos con la media. Esta técnica se aplica a variables de intervalo. - MEDIAN: Reemplaza los valores perdidos con la mediana. Esta técnica se aplica a variables de intervalo. - MIDRANGE: Reemplaza los valores perdidos con la media del valor máximo y el valor mínimo. Esta técnica se aplica a variables de intervalo. - MIN: Reemplaza los valores perdidos con el valor mínimo. Esta técnica se aplica a variables de intervalo. - RANDOM: Reemplaza los valores perdidos con números aleatorios uniformes. Esta técnica se aplica a variables de intervalo. - VALUE: Reemplaza los valores perdidos con los valores especificados en los parámetros valuesInterval y valuesNominal.
methodNominal	Especifica la técnica de imputación para variables nominales. - MODE: Reemplaza los valores perdidos con la moda. Esta técnica se aplica a variables nominales. - VALUE: Reemplaza los valores perdidos con los valores especificados en los parámetros valuesInterval y valuesNominal.
minRandom	Especifica el número aleatorio mínimo a generar.
nNominalVars	Especifica que las últimas variables nNomVars se traten como nominales si no proporciona un valor para el parámetro nomVarsIndices.
nominalVarsIndices	Especifica los índices de las variables a tratar como variables nominales.
outputTableOptions	Especifica opciones para las tablas de resultados. Puede especificar qué tablas de resultados devuelve el servidor y cómo se gestionan los resultados de agrupación. - forceTableReturn: Cuando se establece en Verdadero, las tablas de resultados se devuelven al cliente incluso si la salida también se guarda como una tabla de salida. - tableNames: Especifica los nombres de las tablas de resultados a generar. Por defecto, se devuelven todas las tablas de resultados.
outVarsNamePrefix	Especifica un prefijo para aplicar a los nombres de las variables de salida. Si una variable llamada 'x' da como resultado una nueva variable, el nombre generado es <prefijo>_x_<sufijo>. Puede usar este parámetro y el parámetro de sufijo al mismo tiempo.
outVarsNameSuffix	Especifica un sufijo para aplicar a los nombres de las variables de salida. Si una variable llamada 'x' da como resultado una nueva variable, el nombre generado es <prefijo>_x_<sufijo>. Puede usar este parámetro y el parámetro de prefijo al mismo tiempo.
percentileDefinition	Especifica la definición de percentil a usar. Las definiciones están numeradas del 1 al 6. El valor por defecto es 6.
percentileMaxIterations	Especifica el número máximo de iteraciones para el cálculo de percentiles.
percentileTolerance	Especifica la tolerancia para el cálculo de percentiles.
sasVarNameLength	Cuando se establece en Verdadero, las longitudes de los nombres de las variables de salida están restringidas a ser menores o iguales a 32 caracteres.
seed	Especifica un valor de semilla. La semilla se utiliza para generar valores aleatorios.
table	Especifica el nombre de la tabla, la caslib y otros parámetros comunes.
valuesInterval	Especifica una lista de valores dobles para la imputación de las variables de intervalo.
valuesNominal	Especifica una lista de valores de cadena para la imputación de las variables nominales.
weight	Especifica la variable de peso.

Ejemplos

Actions associées

dataPreprocess

binning

La acción `binning` del conjunto de acciones `dataPreprocess` realiza una dis...

dataPreprocess

catTrans

Agrupa y codifica variables categóricas utilizando técnicas de agrupación sup...

dataPreprocess

highCardinality

Realiza una estimación aleatoria de la cardinalidad.

datapreprocess

histogram

Genera cubos de histograma y estadísticas simples basadas en cubos para varia...