Realiza un análisis de los patrones de valores perdidos en un conjunto de datos. Esta acción es útil para comprender la naturaleza y la estructura de los datos faltantes, lo que puede ser crucial para las estrategias de imputación y la construcción de modelos robustos.
| Parámetro | Descripción |
|---|---|
| casOut | Especifica la tabla CAS de salida para almacenar los resultados del análisis. |
| distinctCountLimit | Especifica el límite de recuento de valores distintos. Si se supera, se utiliza un algoritmo de boceto para la estimación. |
| ecdfTolerance | Especifica el valor de tolerancia para la función de distribución acumulada empírica (ECDF). |
| freq | Especifica la variable de frecuencia. |
| inputs | Especifica las variables a utilizar para el análisis. |
| misraGries | Cuando se establece en True, utiliza el algoritmo de Misra-Gries para la estimación de la distribución de frecuencia si se excede el límite de recuento de distintos. |
| nominals | Especifica las variables nominales. |
| table | Especifica la tabla de entrada que se va a analizar. |
| target | Especifica la variable objetivo. |
Este código crea una tabla CAS de ejemplo llamada 'mycas.hmeq_missing'. Carga los datos de 'sampsio.hmeq' y luego introduce aleatoriamente valores perdidos en varias columnas para simular un conjunto de datos del mundo real con datos faltantes, que es ideal para demostrar el análisis de patrones de valores perdidos.
| 1 | DATA mycas.hmeq_missing; |
| 2 | SET sampsio.hmeq; |
| 3 | IF rand('UNIFORM') < 0.1 THEN call missing(DEBTINC); |
| 4 | IF rand('UNIFORM') < 0.15 THEN call missing(DELINQ); |
| 5 | IF rand('UNIFORM') < 0.05 THEN call missing(VALUE); |
| 6 | IF rand('UNIFORM') < 0.2 THEN call missing(JOB); |
| 7 | RUN; |
Este ejemplo realiza un análisis básico de los patrones de valores perdidos en la tabla 'hmeq_missing'. Genera una tabla de salida 'missing_patterns_out' que contiene los resultados del análisis.
| 1 | PROC CAS; |
| 2 | dataSciencePilot.analyzeMissingPatterns / |
| 3 | TABLE={name='hmeq_missing'}, |
| 4 | casOut={name='missing_patterns_out', replace=true}; |
| 5 | RUN; |
| 6 | QUIT; |
Este ejemplo realiza un análisis más detallado especificando la variable 'BAD' como objetivo. Se enfoca el análisis en un subconjunto de variables de entrada ('LOAN', 'MORTDUE', 'VALUE', 'YOJ', 'DEROG', 'DELINQ', 'CLAGE', 'NINQ', 'CLNO', 'DEBTINC') y especifica 'JOB' como una variable nominal. Esto permite un análisis más enfocado de cómo los patrones de valores perdidos se relacionan con la variable objetivo.
| 1 | PROC CAS; |
| 2 | dataSciencePilot.analyzeMissingPatterns / |
| 3 | TABLE={name='hmeq_missing'}, |
| 4 | target='BAD', |
| 5 | inputs={'LOAN', 'MORTDUE', 'VALUE', 'YOJ', 'DEROG', 'DELINQ', 'CLAGE', 'NINQ', 'CLNO', 'DEBTINC'}, |
| 6 | nominals={'JOB'}, |
| 7 | casOut={name='detailed_missing_patterns_out', replace=true}; |
| 8 | RUN; |
| 9 | QUIT; |
Una entidad financiera necesita comprender cómo los datos faltantes en las solicitudes de préstamos (ej. ingresos, antigüedad laboral) se correlacionan con el incumplimiento de ...
Una gran empresa de retail analiza un conjunto de datos masivo de transacciones de clientes. El objetivo es encontrar patrones en datos demográficos faltantes, como el código po...
Un proveedor de atención médica está auditando la calidad de los datos de los registros de pacientes. El conjunto de datos es conocido por ser desordenado, con muchos valores fa...