dataSciencePilot

exploreCorrelation

Description

Explore les corrélations linéaires et non linéaires entre les variables. Cette action calcule diverses statistiques de corrélation (comme Pearson, l'information mutuelle, l'incertitude symétrique) pour identifier les relations entre les variables d'entrée et potentiellement une variable cible.

dataSciencePilot.exploreCorrelation <result=results> <status=rc> / binMissing=TRUE | FALSE, casOut={caslib="string", indexVars={"variable-name-1" <, "variable-name-2", ...>}, lifetime=64-bit-integer, memoryFormat="DVR" | "INHERIT" | "STANDARD", name="table-name", promote=TRUE | FALSE, replace=TRUE | FALSE, tableRedistUpPolicy="DEFER" | "NOREDIST" | "REBALANCE"}, distinctCountLimit=integer, ecdfTolerance=double, event="string", freq="variable-name", inputs={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}, {...}}, misraGries=TRUE | FALSE, nominals={"variable-name-1" <, "variable-name-2", ...>}, stats={intervalInterval={"ENTROPY", "MI", "NORMMI", "PEARSON", "SU"}, nominalInterval={"ENTROPY", "FTEST", "MI", "NORMMI", "SU"}, nominalNominal={"CHISQ", "CRAMERSV", "ENTROPY", "G2", "IV", "MI", "NORMMI", "SU"}}, table={caslib="string", computedOnDemand=TRUE | FALSE, computedVars={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}, {...}}, computedVarsProgram="string", dataSourceOptions={key-1=any-list-or-data-type-1 <, key-2=any-list-or-data-type-2, ...>}, importOptions={fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", fileType-specific-parameters}, name="table-name", singlePass=TRUE | FALSE, vars={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}, {...}}, where="where-expression", whereTable={casLib="string", dataSourceOptions={adls_noreq-parameters | bigquery-parameters | cas_noreq-parameters | clouddex-parameters | db2-parameters | dnfs-parameters | esp-parameters | fedsvr-parameters | gcs_noreq-parameters | hadoop-parameters | hana-parameters | impala-parameters | informix-parameters | jdbc-parameters | mongodb-parameters | mysql-parameters | odbc-parameters | oracle-parameters | path-parameters | postgres-parameters | redshift-parameters | s3-parameters | sapiq-parameters | sforce-parameters | singlestore_standard-parameters | snowflake-parameters | spark-parameters | spde-parameters | sqlserver-parameters | ss_noreq-parameters | teradata-parameters | vertica-parameters | yellowbrick-parameters}, importOptions={fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", fileType-specific-parameters}, name="table-name", vars={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}, {...}}, where="where-expression"}}, target="variable-name";
Paramètres
ParamètreDescription
tableSpécifie la table d'entrée, la caslib et d'autres paramètres communs de gestion des données.
casOutSpécifie la table CAS de sortie où seront stockés les résultats de l'analyse de corrélation.
targetSpécifie la variable cible pour laquelle les corrélations avec les autres variables doivent être calculées.
inputsSpécifie la liste des variables d'entrée à inclure dans l'analyse. Alias : vars.
nominalsSpécifie la liste des variables à traiter comme nominales.
statsSpécifie les mesures de corrélation à calculer (ex: PEARSON, MI pour Information Mutuelle, SU pour Incertitude Symétrique).
binMissingSi défini à Vrai, les valeurs manquantes sont incluses dans l'analyse (traitées comme un niveau distinct pour les variables nominales ou via binning).
distinctCountLimitLimite pour le nombre de valeurs distinctes. Par défaut 10000 (ou 1000 sans cible). Utilisé avec l'algorithme Misra-Gries si la limite est atteinte.
ecdfToleranceTolérance pour l'approximation de la fonction de répartition cumulative empirique (utilisée par l'algorithme de quantile).
Préparation des Données Voir la fiche de ce code dataprep
Préparation des données Cars

Chargement du jeu de données 'cars' depuis la bibliothèque SASHELP vers la mémoire CAS pour l'analyse.

Copié !
1 
2PROC CAS;
3loadTable path="cars.sashdat" caslib="samples" casOut={name="cars", replace=true};
4 
5RUN;
6 

Exemples

Analyse de base des corrélations avec une variable cible spécifiée.

Code SAS® / CAS Code en attente de validation par la communauté
Copié !
1 
2PROC CAS;
3dataSciencePilot.exploreCorrelation / TABLE={name="cars"} target="MSRP";
4 
5RUN;
6 
Résultat :
Affiche une table listant les variables corrélées avec 'MSRP', triées par force de corrélation (par défaut Information Mutuelle).

Analyse détaillant les statistiques spécifiques (Pearson, MI) et sauvegardant les résultats dans une table.

Code SAS® / CAS Code en attente de validation par la communauté
Copié !
1 
2PROC CAS;
3dataSciencePilot.exploreCorrelation / TABLE={name="cars"} target="MSRP" stats={intervalInterval={"PEARSON", "MI"}} casOut={name="corr_results", replace=true};
4 
5RUN;
6 
Résultat :
Génère une table 'corr_results' contenant les scores de corrélation Pearson et d'Information Mutuelle pour chaque variable par rapport à 'MSRP'.

FAQ

Quel est l'objectif principal de l'action exploreCorrelation ?
Comment inclure les valeurs manquantes dans l'analyse ?
Quelles statistiques de corrélation sont disponibles pour les paires de variables d'intervalle ?
À quoi sert le paramètre "misraGries" ?
Comment sauvegarder les résultats de l'analyse de corrélation ?
Est-il possible de cibler un événement spécifique pour une variable cible ?