La acción exploreData realiza una exploración exhaustiva de los datos, incluyendo un análisis automático de variables y agrupación basado en perfiles estadísticos. Esta acción es fundamental para comprender la estructura, la calidad y las relaciones dentro de los datos antes de modelar. Permite detectar interacciones, evaluar la cardinalidad, identificar valores atípicos (outliers) y analizar la distribución de valores faltantes, aplicando políticas configurables para adaptar el análisis a las necesidades específicas del científico de datos.
| Parámetro | Descripción |
|---|---|
| table | Especifica la tabla de entrada, la biblioteca (caslib) y opciones adicionales como filtros o variables calculadas. |
| casOut | Especifica la tabla CAS de salida donde se almacenarán los resultados del análisis exploratorio. |
| target | Define la variable objetivo para el análisis supervisado. Es crucial para evaluar la relación de otras variables con el objetivo. |
| inputs | Lista las variables de entrada específicas que se incluirán en el análisis. Si no se especifica, se analizan todas las variables disponibles. |
| explorationPolicy | Permite personalizar las reglas y umbrales para el análisis automático (AVAPT), incluyendo criterios para cardinalidad, entropía, curtosis, asimetría y valores atípicos. |
| distinctCountLimit | Establece el límite para el recuento de valores distintos. Si se supera, se puede usar una estimación. |
| misraGries | Indica si se debe utilizar el algoritmo de bosquejo de frecuencia Misra-Gries para estimar la distribución cuando se excede el 'distinctCountLimit'. |
| ecdfTolerance | Define la tolerancia para el cálculo de la función de distribución acumulativa empírica (ECDF) utilizada en algoritmos de cuantiles. |
Carga el conjunto de datos SASHELP.CARS en la memoria CAS para su análisis.
| 1 | DATA casuser.cars; SET sashelp.cars; RUN; |
Realiza un análisis exploratorio de la tabla 'cars' definiendo 'Origin' como la variable objetivo y guardando los resultados en 'explore_results'.
| 1 | |
| 2 | PROC CAS; |
| 3 | dataSciencePilot.exploreData TABLE={name="cars", caslib="casuser"} target="Origin" casOut={name="explore_results", caslib="casuser", replace=true}; |
| 4 | |
| 5 | RUN; |
| 6 |
Ejecuta una exploración detallada sobre variables numéricas específicas ('MSRP', 'Horsepower', 'MPG_City'), ajustando los umbrales de cardinalidad y valores atípicos mediante 'explorationPolicy' para un control más fino del análisis.
| 1 | |
| 2 | PROC CAS; |
| 3 | dataSciencePilot.exploreData TABLE={name="cars", caslib="casuser"} target="Origin" inputs={{name="MSRP"}, {name="Horsepower"}, {name="MPG_City"}} explorationPolicy={cardinality={mediumHighCutoff=50}, outlier={momentMediumHighCutoff=3}} casOut={name="detailed_explore", caslib="casuser", replace=true}; |
| 4 | |
| 5 | RUN; |
| 6 |