La acción exploreCorrelation explora las correlaciones lineales y no lineales entre las variables de una tabla. Es una herramienta fundamental en la fase de exploración de datos y selección de características (feature selection), ya que permite identificar qué variables están fuertemente relacionadas con una variable objetivo (target) o entre sí (colinealidad). Soporta métricas como Pearson, Información Mutua (MI) e Incertidumbre Simétrica (SU), adaptándose tanto a variables nominales como de intervalo.
| Parámetro | Descripción |
|---|---|
| table | Especifica la tabla de entrada que contiene los datos a analizar. Es un parámetro obligatorio. |
| casOut | Especifica la tabla de salida donde se almacenarán los resultados de la correlación. Es obligatorio. |
| target | Define la variable objetivo contra la cual se evaluarán las correlaciones de las demás variables. |
| inputs | Especifica la lista de variables de entrada que se analizarán. Si no se especifica, se usan todas las variables excepto la objetivo. |
| stats | Define qué estadísticas de correlación calcular. Permite diferenciar entre comparaciones intervalo-intervalo (ej. PEARSON, MI) y nominal-nominal (ej. CHISQ, CRAMERSV). |
| binMissing | Si se establece en TRUE, los valores faltantes se tratan como un nivel distinto en el análisis (binning), permitiendo evaluar su impacto. |
Creamos un conjunto de datos simple con variables numéricas (Edad, Salario) y categóricas (Ciudad) para analizar su correlación con el Monto de Compra.
| 1 | DATA mycas.datos_ventas; INPUT Edad Salario Monto_Compra Ciudad $; DATALINES; |
| 2 | 25 30000 500 Madrid |
| 3 | 30 45000 1200 Barcelona |
| 4 | 35 50000 1500 Madrid |
| 5 | 40 65000 2000 Valencia |
| 6 | 45 70000 2200 Barcelona |
| 7 | 50 85000 3000 Valencia |
| 8 | ; RUN; |
Calcula las correlaciones predeterminadas de todas las variables numéricas con respecto a la variable objetivo 'Monto_Compra'.
| 1 | |
| 2 | PROC CAS; |
| 3 | dataSciencePilot.exploreCorrelation / TABLE={name="datos_ventas"} target="Monto_Compra" casOut={name="resultados_corr", replace=true}; |
| 4 | |
| 5 | RUN; |
| 6 |
Realiza un análisis especificando variables de entrada concretas, tratando valores nulos y solicitando específicamente la correlación de Pearson y la Información Mutua (MI).
| 1 | |
| 2 | PROC CAS; |
| 3 | dataSciencePilot.exploreCorrelation / TABLE={name="datos_ventas"} target="Monto_Compra" inputs={"Edad", "Salario"} binMissing=true stats={intervalInterval={"PEARSON", "MI"}} casOut={name="analisis_detallado", replace=true}; |
| 4 | |
| 5 | RUN; |
| 6 |