dataSciencePilot analyzeMissingPatterns

Análisis de Rendimiento en Datos de Clientes con Alta Cardinalidad

Scénario de test & Cas d'usage

Contexto empresarial

Una gran empresa de retail analiza un conjunto de datos masivo de transacciones de clientes. El objetivo es encontrar patrones en datos demográficos faltantes, como el código postal ('ID_CLIENTE'), que es una variable con cardinalidad extremadamente alta. Este escenario prueba el rendimiento de la acción y su capacidad para manejar estas variables eficientemente.
Sobre el conjunto : dataSciencePilot

Aprendizaje automático automatizado (AutoML) y generación de pipelines.

Descubrir todas las acciones de dataSciencePilot
Preparación de datos

Genera una tabla grande ('clientes_volumen') con 1 millón de registros. La tabla incluye un 'ID_CLIENTE' único para cada fila para simular alta cardinalidad, y se introducen valores ausentes en la variable 'CIUDAD'.

¡Copiado!
1DATA mycas.clientes_volumen(keep=ID_CLIENTE COMPRA CIUDAD);
2 LENGTH CIUDAD $20;
3 DO ID_CLIENTE = 1 to 1000000;
4 COMPRA = 100 + rand('INTEGER', 1, 500);
5 IF rand('UNIFORM') < 0.25 THEN call missing(CIUDAD);
6 ELSE CIUDAD = 'Ciudad_' || left(put(rand('INTEGER', 1, 5000), 8.));
7 OUTPUT;
8 END;
9RUN;

Étapes de réalisation

1
Ejecución del análisis de patrones ausentes en la tabla de gran volumen, forzando el uso del algoritmo de boceto Misra-Gries al establecer un 'distinctCountLimit' bajo.
¡Copiado!
1PROC CAS;
2 dataSciencePilot.analyzeMissingPatterns /
3 TABLE={name='clientes_volumen'},
4 nominals={'ID_CLIENTE', 'CIUDAD'},
5 distinctCountLimit=10000,
6 misraGries=TRUE,
7 casOut={name='patrones_volumen_out', replace=true};
8RUN;
9QUIT;
2
Comprobación de que la acción se ha completado correctamente y ha generado una tabla de resultados a pesar de la alta cardinalidad.
¡Copiado!
1PROC CAS;
2 TABLE.tableInfo /
3 name='patrones_volumen_out';
4RUN;
5QUIT;

Resultado esperado


La acción debe procesar la tabla de un millón de filas de manera eficiente y sin errores. La tabla de salida 'patrones_volumen_out' debe contener una estimación de la distribución de frecuencias de los patrones de ausencia, demostrando que el algoritmo Misra-Gries se ha aplicado correctamente para manejar la variable 'ID_CLIENTE' de alta cardinalidad.