Scénario de test & Cas d'usage
Aprendizaje automático automatizado (AutoML) y generación de pipelines.
Descubrir todas las acciones de dataSciencePilotGenera una tabla grande ('clientes_volumen') con 1 millón de registros. La tabla incluye un 'ID_CLIENTE' único para cada fila para simular alta cardinalidad, y se introducen valores ausentes en la variable 'CIUDAD'.
| 1 | DATA mycas.clientes_volumen(keep=ID_CLIENTE COMPRA CIUDAD); |
| 2 | LENGTH CIUDAD $20; |
| 3 | DO ID_CLIENTE = 1 to 1000000; |
| 4 | COMPRA = 100 + rand('INTEGER', 1, 500); |
| 5 | IF rand('UNIFORM') < 0.25 THEN call missing(CIUDAD); |
| 6 | ELSE CIUDAD = 'Ciudad_' || left(put(rand('INTEGER', 1, 5000), 8.)); |
| 7 | OUTPUT; |
| 8 | END; |
| 9 | RUN; |
| 1 | PROC CAS; |
| 2 | dataSciencePilot.analyzeMissingPatterns / |
| 3 | TABLE={name='clientes_volumen'}, |
| 4 | nominals={'ID_CLIENTE', 'CIUDAD'}, |
| 5 | distinctCountLimit=10000, |
| 6 | misraGries=TRUE, |
| 7 | casOut={name='patrones_volumen_out', replace=true}; |
| 8 | RUN; |
| 9 | QUIT; |
| 1 | PROC CAS; |
| 2 | TABLE.tableInfo / |
| 3 | name='patrones_volumen_out'; |
| 4 | RUN; |
| 5 | QUIT; |
La acción debe procesar la tabla de un millón de filas de manera eficiente y sin errores. La tabla de salida 'patrones_volumen_out' debe contener una estimación de la distribución de frecuencias de los patrones de ausencia, demostrando que el algoritmo Misra-Gries se ha aplicado correctamente para manejar la variable 'ID_CLIENTE' de alta cardinalidad.