Publicado el :

Análisis y transformación de datos de productos

Este código también está disponible en: Deutsch English Français
En espera de validación
El objetivo principal de este script es proporcionar una comprensión profunda de una base de datos de productos y agregarle información relevante. Comienza estableciendo un acceso directo a una carpeta externa a través de una instrucción LIBNAME. Luego, inspecciona la estructura y el contenido del conjunto de datos 'cadastro_produto'. Se realizan análisis estadísticos descriptivos (frecuencias univariadas y cruzadas) sobre variables como 'gênero', 'plataforma' y 'nome'. Se utiliza un DATA STEP para crear una variable binaria 'lancamento' basada en la fecha, indicando si un producto es un 'lanzamiento'. Finalmente, el script guarda una versión actualizada del conjunto de datos con esta nueva variable, renombrada para mayor claridad, y etiquetas mejoradas para facilitar la interpretación de futuros informes.
Análisis de datos

Type : EXTERNE


El script utiliza el conjunto de datos 'cadastro_produto' que se carga desde la carpeta '/folders/myfolders/AluraPlay' a través de la librería 'alura'. Se asume que este conjunto de datos no se crea ni se genera dentro del script SAS, sino que ya existe en la ruta especificada.

1 Bloque de código
LIBNAME / PROC DATASETS
Explicación :
Declara una librería SAS llamada 'alura' que apunta a la ruta de carpeta especificada. Luego, usa PROC DATASETS para listar la información detallada sobre las tablas contenidas en esta librería, permitiendo verificar la presencia de los conjuntos de datos esperados.
¡Copiado!
1/* Declara o atalho para a minha pasta da AluraPlay */
2LIBNAME alura "/folders/myfolders/AluraPlay";
3 
4* Vou checar o meu diretório da Alura ;
5PROC DATASETS
6 lib=alura details;
7RUN;
2 Bloque de código
PROC CONTENTS
Explicación :
Muestra los metadatos (diccionario) del conjunto de datos 'alura.cadastro_produto', incluyendo nombres de variables, sus tipos, longitudes, formatos y otros atributos, ofreciendo una visión general de la estructura del conjunto de datos fuente.
¡Copiado!
1* Checa o conteúdo da minha base de cadastro produto ;
2PROC CONTENTS
3 DATA=alura.cadastro_produto;
4RUN;
3 Bloque de código
PROC PRINT
Explicación :
Imprime la totalidad del conjunto de datos 'alura.cadastro_produto' en la salida predeterminada, permitiendo una revisión visual rápida de las primeras observaciones.
¡Copiado!
1* Imprime a minha base de cadastro produto ;
2PROC PRINT
3 DATA=alura.cadastro_produto;
4RUN;
4 Bloque de código
PROC FREQ
Explicación :
Genera tablas de frecuencias univariadas para las variables categóricas 'genero', 'plataforma' y 'nome' del conjunto de datos 'alura.cadastro_produto'. La opción NLEVELS indica el número de niveles únicos para cada variable, útil para la exploración de datos.
¡Copiado!
1* Gera as frquencias das variáveis Gênero, Plataforma e Nome ;
2PROC FREQ
3 DATA=alura.cadastro_produto nlevels;
4 TABLE genero plataforma nome;
5RUN;
5 Bloque de código
DATA STEP Data
Explicación :
Crea un nuevo conjunto de datos temporal llamado 'teste' copiando 'alura.cadastro_produto'. Se crea una nueva variable 'lancamento': toma el valor 1 si la variable 'data' es mayor que '201606' (indicando un lanzamiento reciente), y 0 en caso contrario. Esto transforma una fecha en un indicador binario.
¡Copiado!
1/* Cria uma nova base com a variável de flag de lançamento */
2DATA teste;
3SET alura.cadastro_produto;
4 
5IF DATA > 201606
6 THEN lancamento = 1;
7 ELSE lancamento = 0;
8 
9RUN;
6 Bloque de código
PROC PRINT
Explicación :
Imprime el contenido del conjunto de datos 'teste', permitiendo verificar visualmente la correcta creación de la variable 'lancamento'.
¡Copiado!
1* Imprime minha nova base ;
2PROC PRINT
3 DATA=teste;
4RUN;
7 Bloque de código
PROC FREQ
Explicación :
Genera una tabla de frecuencias para la nueva variable 'lancamento' en el conjunto de datos 'teste', mostrando la distribución de los productos considerados 'lanzamientos' en comparación con otros.
¡Copiado!
1* Gera a tabela de frequência da minha variável de laçamento ;
2PROC FREQ
3 DATA=teste;
4 TABLE lancamento;
5RUN;
8 Bloque de código
PROC FREQ
Explicación :
Genera una tabla de frecuencias cruzadas entre 'genero' y 'lancamento' a partir del conjunto de datos 'teste'. Las opciones NOROW, NOCOL y NOPERCENT eliminan los porcentajes de fila, columna y totales, mostrando solo los recuentos para un análisis dirigido.
¡Copiado!
1* Gera a frequencia cruzada das variáveis Gênero e Lançamento ;
2PROC FREQ
3 DATA=teste;
4 TABLE genero*lancamento
5 /norow nocol nopercent;
6RUN;
9 Bloque de código
PROC FREQ
Explicación :
Genera una tabla de frecuencias cruzadas entre 'nome' y 'genero' a partir del conjunto de datos original 'alura.cadastro_produto'. La opción LIST muestra la tabla de contingencia de forma listada, lo cual es útil para combinaciones con muchos niveles. NLEVELS muestra el número de niveles únicos para cada variable.
¡Copiado!
1* Gera a lista cruzada das variáveis Nome e Gênero ;
2PROC FREQ
3 DATA=alura.cadastro_produto nlevels;
4 *table nome;
5 TABLE nome*genero
6 / list;
7RUN;
10 Bloque de código
DATA STEP Data
Explicación :
Crea el conjunto de datos final 'alura.cadastro_produto_v2' copiando 'teste'. La variable 'lancamento' se renombra a 'flag_lancamento' para mejorar la claridad. Se asignan etiquetas (labels) a las variables 'Genero' y 'lancamento' para enriquecer la documentación de los datos y mejorar la legibilidad de los informes futuros.
¡Copiado!
1/* Salva a minha base intermendiária no diretório da AluraPlay */
2DATA alura.cadastro_produto_v2;
3SET teste;
4rename lancamento = flag_lancamento;
5label Genero = "Gênero"
6 lancamento = "Marque 1 pour les jeux qui sont un lancement et 0 sinon";
7RUN;
11 Bloque de código
PROC CONTENTS
Explicación :
Verifica los metadatos del conjunto de datos final 'alura.cadastro_produto_v2' para confirmar que todas las modificaciones (renombrar variable, aplicar etiquetas) se han realizado correctamente.
¡Copiado!
1* Checar se minha base 'cadastro_produto_v2' foi criada corretamente ;
2PROC CONTENTS
3 DATA=alura.cadastro_produto_v2;
4RUN;
Este material se proporciona "tal cual" por We Are Cas. No hay garantías, expresas o implícitas, en cuanto a la comerciabilidad o idoneidad para un propósito particular con respecto a los materiales o el código contenidos en este documento. We Are Cas no es responsable de los errores en este material tal como existe ahora o existirá, ni We Are Cas proporciona soporte técnico para el mismo.