dataSciencePilot

exploreData

Descripción

La acción exploreData realiza una exploración exhaustiva de los datos, incluyendo un análisis automático de variables y agrupación basado en perfiles estadísticos. Esta acción es fundamental para comprender la estructura, la calidad y las relaciones dentro de los datos antes de modelar. Permite detectar interacciones, evaluar la cardinalidad, identificar valores atípicos (outliers) y analizar la distribución de valores faltantes, aplicando políticas configurables para adaptar el análisis a las necesidades específicas del científico de datos.

Parámetros
ParámetroDescripción
table Especifica la tabla de entrada, la biblioteca (caslib) y opciones adicionales como filtros o variables calculadas.
casOut Especifica la tabla CAS de salida donde se almacenarán los resultados del análisis exploratorio.
target Define la variable objetivo para el análisis supervisado. Es crucial para evaluar la relación de otras variables con el objetivo.
inputs Lista las variables de entrada específicas que se incluirán en el análisis. Si no se especifica, se analizan todas las variables disponibles.
explorationPolicy Permite personalizar las reglas y umbrales para el análisis automático (AVAPT), incluyendo criterios para cardinalidad, entropía, curtosis, asimetría y valores atípicos.
distinctCountLimit Establece el límite para el recuento de valores distintos. Si se supera, se puede usar una estimación.
misraGries Indica si se debe utilizar el algoritmo de bosquejo de frecuencia Misra-Gries para estimar la distribución cuando se excede el 'distinctCountLimit'.
ecdfTolerance Define la tolerancia para el cálculo de la función de distribución acumulativa empírica (ECDF) utilizada en algoritmos de cuantiles.
Carga de datos de Automóviles

Carga el conjunto de datos SASHELP.CARS en la memoria CAS para su análisis.

¡Copiado!
1DATA casuser.cars; SET sashelp.cars; RUN;

Ejemplos

Realiza un análisis exploratorio de la tabla 'cars' definiendo 'Origin' como la variable objetivo y guardando los resultados en 'explore_results'.

Código SAS® / CAS Código en espera de validación por la comunidad
¡Copiado!
1 
2PROC CAS;
3dataSciencePilot.exploreData TABLE={name="cars", caslib="casuser"} target="Origin" casOut={name="explore_results", caslib="casuser", replace=true};
4 
5RUN;
6 
Resultado :
Se genera la tabla 'explore_results' que contiene estadísticas descriptivas, métricas de calidad de datos y recomendaciones de uso para las variables en relación al origen del vehículo.

Ejecuta una exploración detallada sobre variables numéricas específicas ('MSRP', 'Horsepower', 'MPG_City'), ajustando los umbrales de cardinalidad y valores atípicos mediante 'explorationPolicy' para un control más fino del análisis.

Código SAS® / CAS Código en espera de validación por la comunidad
¡Copiado!
1 
2PROC CAS;
3dataSciencePilot.exploreData TABLE={name="cars", caslib="casuser"} target="Origin" inputs={{name="MSRP"}, {name="Horsepower"}, {name="MPG_City"}} explorationPolicy={cardinality={mediumHighCutoff=50}, outlier={momentMediumHighCutoff=3}} casOut={name="detailed_explore", caslib="casuser", replace=true};
4 
5RUN;
6 
Resultado :
Se crea la tabla 'detailed_explore' reflejando un análisis donde las variables se evalúan con criterios más estrictos para la detección de outliers y clasificación de cardinalidad.

FAQ

¿Cuál es el propósito principal de la acción exploreData?
¿A qué conjunto de acciones pertenece exploreData?
¿Qué parámetro se utiliza para especificar la tabla de entrada?
¿Cómo se guardan los resultados del análisis en una tabla CAS?
¿Qué función tiene el parámetro target?
¿Para qué sirve el parámetro explorationPolicy?
¿Qué sucede si se supera el límite definido en distinctCountLimit?
¿Cómo se puede especificar una variable de peso para el análisis?
¿Qué permite configurar el parámetro casOut.promote?