datapreprocess

histogram

Descripción

Genera cubos de histograma y estadísticas simples basadas en cubos para variables numéricas.

dataPreprocess.histogram <result=results> <status=rc> / <casOutBinDetails={casouttable}>, freq="variable-name", includeMissingGroup=TRUE | FALSE, inputs={{casinvardesc-1} <, {casinvardesc-2}, ...>}, maxIterations=integer, nArgumentsForEachVar={integer-1 <, integer-2, ...>}, outputTableOptions={outputTableOptions}, percentileDefinition=integer, percentileMaxIterations=integer, percentileTolerance=double, requestPackages={{histogramRequestPackage-1} <, {histogramRequestPackage-2}, ...>}, table={castable}, tolerance=double, varsToArgumentsMap={integer-1 <, integer-2, ...>}, weight="variable-name";
Parámetros
ParámetroDescripción
casOutBinDetailsespecifica la configuración de una tabla de salida. Para obtener más información sobre cómo especificar el parámetro casOutBinDetails, consulte el parámetro común casouttable.
freqespecifica la variable de frecuencia.
includeMissingGroupcuando se establece en True, se permiten valores faltantes como claves de agrupación. Por defecto es FALSE.
inputsespecifica las variables a utilizar para el análisis. Puede especificar un subconjunto de las variables de la tabla de entrada. Para obtener más información sobre cómo especificar el parámetro inputs, consulte el parámetro común casinvardesc.
maxIterationsespecifica el número máximo de iteraciones para las estadísticas univariadas robustas iterativas, como la escala MAD, la escala GINI y las estimaciones de asimetría de Medcouple. Este parámetro se puede utilizar si se emplea la definición de valores atípicos ZSCORE.
nArgumentsForEachVarespecifica el número de argumentos (paquetes de solicitud) para cada variable. Si no se establece, se incluyen todos los paquetes de solicitud para todas las variables.
outputTableOptionsespecifica opciones para las tablas de resultados. Puede especificar qué tablas de resultados devuelve el servidor y cómo se manejan los resultados de la agrupación. Por defecto, todas las tablas de resultados se devuelven. El valor de outputTableOptions puede ser uno o más de los siguientes: - forceTableReturn: cuando se establece en True, las tablas de resultados se devuelven al cliente incluso si la salida también se guarda como tabla de salida. Por defecto es FALSE. - tableNames: especifica los nombres de las tablas de resultados a generar.
percentileDefinitionespecifica la definición de percentil a utilizar. Las definiciones están numeradas del 1 al 6. El valor por defecto es 6. El rango es 1–6.
percentileMaxIterationsespecifica el número máximo de iteraciones para el cálculo del percentil.
percentileToleranceespecifica la tolerancia para el cálculo del percentil. Por defecto es 1E-05.
requestPackagesespecifica una matriz de paquetes de solicitud de histograma que serán procesados por la acción. Puede hacer coincidir los paquetes de solicitud con las variables de análisis mediante los parámetros nArgsForEachVar y varsToArgsMap. El valor de histogramRequestPackage puede ser uno o más de los siguientes: - allScaleTypes: cuando se establece en True, se calcularán todos los tipos de escala. Por defecto es FALSE. - binEnd: especifica los valores finales de los cubos. Si corresponde, anulan los valores máximos de los datos. - binMapping: controla cómo asignar valores que caen en el límite entre cubos consecutivos. LEFT permite expresar los cubos con la notación [], (], ..., (]. RIGHT permite la notación [), [), ..., []. Por defecto es RIGHT. - binOutliers: cuando se establece en True, los valores atípicos se agrupan en cubos distintos. Si se generan n cubos para valores no atípicos, los cubos de valores atípicos inferior y superior corresponden a los ID de cubo n+1 y n+2, respectivamente. Por defecto es FALSE. - binStart: especifica los valores iniciales de los cubos. Si corresponde, anulan los valores mínimos de los datos. - binWidth: especifica el ancho del cubo. - cutPoints: especifica los puntos de corte proporcionados por el usuario, para la técnica de agrupamiento CUTPTS. - emptyBins: cuando se establece en True, se permiten cubos con cero observaciones. Por defecto, los cubos vacíos iniciales y finales se eliminan. Otros cubos vacíos se combinan con el primer cubo no vacío a la derecha. Por defecto es TRUE. - globalBinWidth: cuando se establece en True, todos los histogramas de una variable, en todos los grupos de agrupación, utilizan los mismos límites de cubo. Por defecto es FALSE. - globalNObs: especifica la estimación a utilizar para el número de observaciones por grupo. Esto es necesario para que el algoritmo de 'nicing' determine un ancho de cubo común en todos los grupos. - integerBinning: cuando se establece en True, los límites de los cubos se fuerzan a ser valores enteros. Por defecto es TRUE. - integerBinningLimit: especifica un límite de agrupamiento entero. El agrupamiento entero se desactiva si el rango de la variable integral es mayor que el valor especificado. Por defecto es 16. - method: especifica el tipo de histograma para el paquete de solicitud. Por defecto es EQUALWIDTH. Puede ser: - CUTPTS: crea cubos de acuerdo con los puntos de corte especificados por el usuario. - EQUALFREQ: crea cubos de igual frecuencia. - EQUALWIDTH: crea cubos de igual ancho. - nBins: especifica el número de cubos. Por defecto, el algoritmo de 'nicing' de límites de cubo está activado. El algoritmo de 'nicing' utiliza este valor como guía y puede generar un número diferente de cubos. - niceBinning: cuando se establece en False, el algoritmo de 'nice-binning' se suspende y no se garantiza que los límites de los cubos caigan en valores 'agradables'. Por defecto es TRUE. - outlierArguments: especifica la definición y el tratamiento de los valores atípicos. Puede ser: - aadLocationUseMean: cuando se establece en True, se utiliza la media, en lugar de la mediana, como centro para el estimador de escala de desviación absoluta media (AAD). Por defecto es TRUE. - location: especifica el método de estimación de la ubicación. Por defecto es MEAN. Puede ser BIWEIGHT, GEOMETRICMEAN, HARMONICMEAN, MEAN, MEDIAN, TRIMMEDMEAN, WINSORIZEDMEAN. - locationBiweightTuning: especifica el factor de ajuste para el estimador de ubicación de Tukey biweight. El valor mínimo (exclusivo) es 0. - lowerPercentile: especifica el umbral de percentil inferior (definición de valores atípicos PERC). El rango es (0, 50). - max: especifica un valor máximo global. - min: especifica un valor mínimo global. - replacements: especifica los valores a utilizar como reemplazos de los valores atípicos. Estos pueden ser valores definidos por el usuario o estimaciones de ubicación. Puede ser BIWEIGHT, GEOMETRICMEAN, HARMONICMEAN, MEAN, MEDIAN, TRIMMEDMEAN, WINSORIZEDMEAN o una lista de valores dobles. - scale: especifica el método de escala a utilizar. Por defecto es STD. Puede ser AAD, BIWEIGHT, GINI, IQR, MAD, STD. - scaleBiweightTuning: especifica el factor de ajuste para el estimador de escala de Tukey biweight. El valor mínimo (exclusivo) es 0. - scaleMultiplier: especifica el factor multiplicador para el estimador de escala elegido. - symmetricPercentile: especifica el umbral de percentil simétrico a utilizar. Por ejemplo, un valor de 20 indica que el percentil inferior se establece en 10 y el percentil superior en 90. El rango es (0, 100). - upperPercentile: especifica el umbral de percentil superior a utilizar. El rango es (50, 100). - userDefinedLimits: utiliza los límites definidos por el usuario especificados como umbrales inferior y superior para cada variable. - zScoreThreshold: especifica el umbral Z. - outlierMethod: especifica el método de definición de valores atípicos. Puede ser IQR, MIQR, MZSCORE, PERC, UDFLIMITS, ZSCORE. - outlierTreatment: especifica cómo tratar los valores atípicos. Puede ser REPLACE, TRIM, WINSOR. - round: cuando se establece en True, se aplica redondeo a los límites de los cubos. Por defecto es FALSE. - roundFactor: especifica el factor de redondeo a utilizar al redondear valores. - roundType: especifica la dirección de redondeo. Por ejemplo, si se especifica un factor de redondeo de 5, un límite de cubo de 6.2 se redondea UP a 10, DOWN a 5 y NEAREST a 5. - scaleType: especifica cómo presentar los resultados. PERCENT utiliza el rango [0, 100]. DENSITY y PROPORTION utilizan [0, 1]. Por defecto es PERCENT.
tableespecifica el nombre de la tabla, la biblioteca CAS y otros parámetros comunes. Para obtener más información sobre cómo especificar el parámetro table, consulte el parámetro común castable. Es un parámetro requerido.
toleranceespecifica la tolerancia para las estadísticas univariadas robustas iterativas. Por defecto es 1E-05.
varsToArgumentsMapespecifica qué paquetes de solicitud se deben calcular para cada variable. Si se especifica un valor para el parámetro nArgsForEachVar, entonces debe establecer este. De lo contrario, ambos parámetros se ignoran y se calculan todos los paquetes de solicitud para todas las variables.
weightespecifica la variable de peso.

Ejemplos

FAQ

¿Qué hace la acción 'histogram'?
¿Qué es 'casOutBinDetails'?
¿Qué es 'freq'?
¿Qué es 'includeMissingGroup'?
¿Qué es 'inputs'?
¿Qué es 'maxIterations'?
¿Qué es 'nArgumentsForEachVar'?
¿Qué es 'outputTableOptions'?
¿Qué es 'forceTableReturn' dentro de 'outputTableOptions'?
¿Qué es 'tableNames' dentro de 'outputTableOptions'?
¿Qué es 'percentileDefinition'?
¿Qué es 'percentileMaxIterations'?
¿Qué es 'percentileTolerance'?
¿Qué es 'requestPackages'?
¿Qué es 'allScaleTypes' dentro de 'requestPackages'?
¿Qué es 'binEnd' dentro de 'requestPackages'?
¿Qué es 'binMapping' dentro de 'requestPackages'?
¿Qué es 'binOutliers' dentro de 'requestPackages'?
¿Qué es 'binStart' dentro de 'requestPackages'?
¿Qué es 'binWidth' dentro de 'requestPackages'?
¿Qué es 'cutPoints' dentro de 'requestPackages'?
¿Qué es 'emptyBins' dentro de 'requestPackages'?
¿Qué es 'globalBinWidth' dentro de 'requestPackages'?
¿Qué es 'globalNObs' dentro de 'requestPackages'?
¿Qué es 'integerBinning' dentro de 'requestPackages'?
¿Qué es 'integerBinningLimit' dentro de 'requestPackages'?
¿Qué es 'method' dentro de 'requestPackages'?
¿Qué es 'nBins' dentro de 'requestPackages'?
¿Qué es 'niceBinning' dentro de 'requestPackages'?
¿Qué es 'outlierArguments' dentro de 'requestPackages'?
¿Qué es 'aadLocationUseMean' dentro de 'outlierArguments'?
¿Qué es 'location' dentro de 'outlierArguments'?
¿Qué es 'locationBiweightTuning' dentro de 'outlierArguments'?
¿Qué es 'lowerPercentile' dentro de 'outlierArguments'?
¿Qué es 'max' dentro de 'outlierArguments'?
¿Qué es 'min' dentro de 'outlierArguments'?
¿Qué es 'replacements' dentro de 'outlierArguments'?
¿Qué es 'scale' dentro de 'outlierArguments'?
¿Qué es 'scaleBiweightTuning' dentro de 'outlierArguments'?
¿Qué es 'scaleMultiplier' dentro de 'outlierArguments'?
¿Qué es 'symmetricPercentile' dentro de 'outlierArguments'?
¿Qué es 'upperPercentile' dentro de 'outlierArguments'?
¿Qué es 'userDefinedLimits' dentro de 'outlierArguments'?
¿Qué es 'zScoreThreshold' dentro de 'outlierArguments'?
¿Qué es 'outlierMethod' dentro de 'requestPackages'?
¿Qué es 'outlierTreatment' dentro de 'requestPackages'?
¿Qué es 'round' dentro de 'requestPackages'?
¿Qué es 'roundFactor' dentro de 'requestPackages'?
¿Qué es 'roundType' dentro de 'requestPackages'?
¿Qué es 'scaleType' dentro de 'requestPackages'?
¿Qué es 'table'?
¿Qué es 'tolerance'?
¿Qué es 'varsToArgumentsMap'?
¿Qué es 'weight'?