dataSciencePilot

exploreData

Descripción

La acción exploreData realiza una exploración exhaustiva de los datos, incluyendo un análisis automático de variables y agrupación basado en perfiles estadísticos. Esta acción es fundamental para comprender la estructura, la calidad y las relaciones dentro de los datos antes de modelar. Permite detectar interacciones, evaluar la cardinalidad, identificar valores atípicos (outliers) y analizar la distribución de valores faltantes, aplicando políticas configurables para adaptar el análisis a las necesidades específicas del científico de datos.

Parámetros
ParámetroDescripción
tableEspecifica la tabla de entrada, la biblioteca (caslib) y opciones adicionales como filtros o variables calculadas.
casOutEspecifica la tabla CAS de salida donde se almacenarán los resultados del análisis exploratorio.
targetDefine la variable objetivo para el análisis supervisado. Es crucial para evaluar la relación de otras variables con el objetivo.
inputsLista las variables de entrada específicas que se incluirán en el análisis. Si no se especifica, se analizan todas las variables disponibles.
explorationPolicyPermite personalizar las reglas y umbrales para el análisis automático (AVAPT), incluyendo criterios para cardinalidad, entropía, curtosis, asimetría y valores atípicos.
distinctCountLimitEstablece el límite para el recuento de valores distintos. Si se supera, se puede usar una estimación.
misraGriesIndica si se debe utilizar el algoritmo de bosquejo de frecuencia Misra-Gries para estimar la distribución cuando se excede el 'distinctCountLimit'.
ecdfToleranceDefine la tolerancia para el cálculo de la función de distribución acumulativa empírica (ECDF) utilizada en algoritmos de cuantiles.
Carga de datos de Automóviles

Carga el conjunto de datos SASHELP.CARS en la memoria CAS para su análisis.

¡Copiado!
1DATA casuser.cars; SET sashelp.cars; RUN;

Ejemplos

Realiza un análisis exploratorio de la tabla 'cars' definiendo 'Origin' como la variable objetivo y guardando los resultados en 'explore_results'.

Código SAS® / CAS Código en espera de validación por la comunidad
¡Copiado!
1 
2PROC CAS;
3dataSciencePilot.exploreData TABLE={name="cars", caslib="casuser"} target="Origin" casOut={name="explore_results", caslib="casuser", replace=true};
4 
5RUN;
6 
Resultado :
Se genera la tabla 'explore_results' que contiene estadísticas descriptivas, métricas de calidad de datos y recomendaciones de uso para las variables en relación al origen del vehículo.

Ejecuta una exploración detallada sobre variables numéricas específicas ('MSRP', 'Horsepower', 'MPG_City'), ajustando los umbrales de cardinalidad y valores atípicos mediante 'explorationPolicy' para un control más fino del análisis.

Código SAS® / CAS Código en espera de validación por la comunidad
¡Copiado!
1 
2PROC CAS;
3dataSciencePilot.exploreData TABLE={name="cars", caslib="casuser"} target="Origin" inputs={{name="MSRP"}, {name="Horsepower"}, {name="MPG_City"}} explorationPolicy={cardinality={mediumHighCutoff=50}, outlier={momentMediumHighCutoff=3}} casOut={name="detailed_explore", caslib="casuser", replace=true};
4 
5RUN;
6 
Resultado :
Se crea la tabla 'detailed_explore' reflejando un análisis donde las variables se evalúan con criterios más estrictos para la detección de outliers y clasificación de cardinalidad.

FAQ

¿Cuál es el propósito principal de la acción exploreData?
¿A qué conjunto de acciones pertenece exploreData?
¿Qué parámetro se utiliza para especificar la tabla de entrada?
¿Cómo se guardan los resultados del análisis en una tabla CAS?
¿Qué función tiene el parámetro target?
¿Para qué sirve el parámetro explorationPolicy?
¿Qué sucede si se supera el límite definido en distinctCountLimit?
¿Cómo se puede especificar una variable de peso para el análisis?
¿Qué permite configurar el parámetro casOut.promote?