Scénario de test & Cas d'usage
Limpieza, imputación y preprocesamiento de datos.
Descubrir todas las acciones de dataPreprocessCreación de un dataset voluminoso con diversas categorías de productos.
| 1 | |
| 2 | DATA casuser.log_navegacion; |
| 3 | call streaminit(999); |
| 4 | DO sesion_id = 1 to 10000; |
| 5 | DO i = 1 to 5; |
| 6 | categoria_id = rand('Integer', 1, 6); |
| 7 | IF categoria_id=1 THEN Categoria='Electronica'; |
| 8 | ELSE IF categoria_id=2 THEN Categoria='Ropa'; |
| 9 | ELSE IF categoria_id=3 THEN Categoria='Hogar'; |
| 10 | ELSE IF categoria_id=4 THEN Categoria='Juguetes'; |
| 11 | ELSE IF categoria_id=5 THEN Categoria='Deportes'; |
| 12 | ELSE Categoria='Libros'; |
| 13 | OUTPUT; |
| 14 | END; |
| 15 | END; |
| 16 | |
| 17 | RUN; |
| 18 |
| 1 | |
| 2 | PROC CAS; |
| 3 | dataPreprocess.catTrans / TABLE={name='log_navegacion', caslib='casuser'} inputs={{name='Categoria'}} method='ONEHOT' outVarsNamePrefix='OHE' casOut={name='matriz_dispersa', caslib='casuser', replace=true}; |
| 4 | |
| 5 | RUN; |
| 6 | |
| 7 | QUIT; |
| 8 |
La tabla resultante 'matriz_dispersa' debe contener nuevas columnas binarias (0/1) como 'OHE_Categoria_Electronica', 'OHE_Categoria_Ropa', etc. La variable original 'Categoria' debe haber sido expandida correctamente, permitiendo su uso directo en modelos de Deep Learning.