dataSciencePilot

exploreCorrelation

Descripción

La acción exploreCorrelation explora las correlaciones lineales y no lineales entre las variables de una tabla. Es una herramienta fundamental en la fase de exploración de datos y selección de características (feature selection), ya que permite identificar qué variables están fuertemente relacionadas con una variable objetivo (target) o entre sí (colinealidad). Soporta métricas como Pearson, Información Mutua (MI) e Incertidumbre Simétrica (SU), adaptándose tanto a variables nominales como de intervalo.

Parámetros
ParámetroDescripción
tableEspecifica la tabla de entrada que contiene los datos a analizar. Es un parámetro obligatorio.
casOutEspecifica la tabla de salida donde se almacenarán los resultados de la correlación. Es obligatorio.
targetDefine la variable objetivo contra la cual se evaluarán las correlaciones de las demás variables.
inputsEspecifica la lista de variables de entrada que se analizarán. Si no se especifica, se usan todas las variables excepto la objetivo.
statsDefine qué estadísticas de correlación calcular. Permite diferenciar entre comparaciones intervalo-intervalo (ej. PEARSON, MI) y nominal-nominal (ej. CHISQ, CRAMERSV).
binMissingSi se establece en TRUE, los valores faltantes se tratan como un nivel distinto en el análisis (binning), permitiendo evaluar su impacto.
Creación de datos de prueba de ventas

Creamos un conjunto de datos simple con variables numéricas (Edad, Salario) y categóricas (Ciudad) para analizar su correlación con el Monto de Compra.

¡Copiado!
1DATA mycas.datos_ventas; INPUT Edad Salario Monto_Compra Ciudad $; DATALINES;
225 30000 500 Madrid
330 45000 1200 Barcelona
435 50000 1500 Madrid
540 65000 2000 Valencia
645 70000 2200 Barcelona
750 85000 3000 Valencia
8; RUN;

Ejemplos

Calcula las correlaciones predeterminadas de todas las variables numéricas con respecto a la variable objetivo 'Monto_Compra'.

Código SAS® / CAS Código en espera de validación por la comunidad
¡Copiado!
1 
2PROC CAS;
3dataSciencePilot.exploreCorrelation / TABLE={name="datos_ventas"} target="Monto_Compra" casOut={name="resultados_corr", replace=true};
4 
5RUN;
6 
Resultado :
Genera una tabla 'resultados_corr' que muestra la fuerza de la relación entre la Edad/Salario y el Monto de Compra.

Realiza un análisis especificando variables de entrada concretas, tratando valores nulos y solicitando específicamente la correlación de Pearson y la Información Mutua (MI).

Código SAS® / CAS Código en espera de validación por la comunidad
¡Copiado!
1 
2PROC CAS;
3dataSciencePilot.exploreCorrelation / TABLE={name="datos_ventas"} target="Monto_Compra" inputs={"Edad", "Salario"} binMissing=true stats={intervalInterval={"PEARSON", "MI"}} casOut={name="analisis_detallado", replace=true};
4 
5RUN;
6 
Resultado :
Produce la tabla 'analisis_detallado' conteniendo solo las métricas Pearson y MI para las variables Edad y Salario, considerando los nulos como una categoría.

FAQ

¿Cuál es el objetivo principal de la acción exploreCorrelation?
¿Cómo puedo incluir los valores faltantes en el análisis?
¿Cómo especifico dónde se almacenan los resultados del análisis?
¿Qué función cumple el parámetro distinctCountLimit?
¿Cómo se define la variable objetivo y el evento de interés?
¿Qué estadísticas se utilizan para calcular la correlación?
¿Cómo puedo utilizar un subconjunto específico de variables de la tabla de entrada?