dataPreprocess catTrans

Codificación One-Hot Masiva para Sistema de Recomendación

Scénario de test & Cas d'usage

Contexto empresarial

Un gigante del e-commerce analiza el comportamiento de navegación de usuarios. Para alimentar una red neuronal profunda, necesitan convertir la variable 'Categoría_Producto' (que no tiene orden intrínseco) en vectores binarios dispersos mediante One-Hot Encoding. El desafío es la volumetría y asegurar que cada categoría se convierta en una columna binaria independiente.
Sobre el conjunto : dataPreprocess

Limpieza, imputación y preprocesamiento de datos.

Descubrir todas las acciones de dataPreprocess
Preparación de datos

Creación de un dataset voluminoso con diversas categorías de productos.

¡Copiado!
1 
2DATA casuser.log_navegacion;
3call streaminit(999);
4DO sesion_id = 1 to 10000;
5DO i = 1 to 5;
6categoria_id = rand('Integer', 1, 6);
7IF categoria_id=1 THEN Categoria='Electronica';
8ELSE IF categoria_id=2 THEN Categoria='Ropa';
9ELSE IF categoria_id=3 THEN Categoria='Hogar';
10ELSE IF categoria_id=4 THEN Categoria='Juguetes';
11ELSE IF categoria_id=5 THEN Categoria='Deportes';
12ELSE Categoria='Libros';
13OUTPUT;
14END;
15END;
16 
17RUN;
18 

Étapes de réalisation

1
Aplicación de One-Hot Encoding definiendo prefijos personalizados para las nuevas columnas.
¡Copiado!
1 
2PROC CAS;
3dataPreprocess.catTrans / TABLE={name='log_navegacion', caslib='casuser'} inputs={{name='Categoria'}} method='ONEHOT' outVarsNamePrefix='OHE' casOut={name='matriz_dispersa', caslib='casuser', replace=true};
4 
5RUN;
6 
7QUIT;
8 

Resultado esperado


La tabla resultante 'matriz_dispersa' debe contener nuevas columnas binarias (0/1) como 'OHE_Categoria_Electronica', 'OHE_Categoria_Ropa', etc. La variable original 'Categoria' debe haber sido expandida correctamente, permitiendo su uso directo en modelos de Deep Learning.