dataSciencePilot analyzeMissingPatterns

Análisis Estándar de Patrones de Ausencia para Evaluación de Riesgo Crediticio

Scénario de test & Cas d'usage

Contexto empresarial

Una entidad financiera necesita comprender cómo los datos faltantes en las solicitudes de préstamos (ej. ingresos, antigüedad laboral) se correlacionan con el incumplimiento de pago (variable 'BAD'). El objetivo es mejorar las estrategias de recopilación de datos e imputación para construir modelos de riesgo más precisos.
Sobre el conjunto : dataSciencePilot

Aprendizaje automático automatizado (AutoML) y generación de pipelines.

Descubrir todas las acciones de dataSciencePilot
Preparación de datos

Crea una tabla de préstamos ('hmeq_riesgo') a partir de 'sampsio.hmeq' e introduce valores ausentes de forma aleatoria en columnas clave como 'DEBTINC' (ratio deuda/ingresos) y 'JOB' (trabajo) para simular un conjunto de datos de solicitud de crédito real.

¡Copiado!
1DATA mycas.hmeq_riesgo;
2 SET sampsio.hmeq;
3 IF rand('UNIFORM') < 0.1 THEN call missing(DEBTINC);
4 IF rand('UNIFORM') < 0.15 THEN call missing(DELINQ);
5 IF rand('UNIFORM') < 0.2 THEN call missing(JOB);
6 IF rand('UNIFORM') < 0.05 THEN call missing(VALUE);
7RUN;

Étapes de réalisation

1
Ejecución del análisis de patrones ausentes especificando una variable objetivo ('BAD') y un subconjunto de variables de entrada relevantes para el riesgo crediticio.
¡Copiado!
1PROC CAS;
2 dataSciencePilot.analyzeMissingPatterns /
3 TABLE={name='hmeq_riesgo'},
4 target='BAD',
5 inputs={'LOAN', 'MORTDUE', 'VALUE', 'YOJ', 'DEROG', 'DELINQ', 'CLAGE', 'NINQ', 'CLNO', 'DEBTINC'},
6 nominals={'JOB'},
7 casOut={name='patrones_riesgo_out', replace=true};
8RUN;
9QUIT;
2
Verificación de los resultados para analizar la distribución de la variable 'BAD' para cada patrón de datos ausentes identificado.
¡Copiado!
1PROC CAS;
2 TABLE.fetch /
3 TABLE={name='patrones_riesgo_out'};
4RUN;
5QUIT;

Resultado esperado


La tabla de salida 'patrones_riesgo_out' debe contener un resumen de los patrones de valores ausentes. Para cada patrón (ej. 'solo falta JOB', 'faltan DEBTINC y DELINQ'), la tabla debe mostrar estadísticas de la variable objetivo 'BAD', permitiendo al analista identificar si ciertos patrones de ausencia están más asociados con un mayor riesgo de incumplimiento.