exploreCorrelation

Q: Quel est l'objectif principal de l'action exploreCorrelation ?

L'action exploreCorrelation est conçue pour explorer les corrélations linéaires et non linéaires parmi les variables d'un jeu de données.

Q: Comment inclure les valeurs manquantes dans l'analyse ?

Vous pouvez inclure les valeurs manquantes en définissant le paramètre "binMissing" sur TRUE. La valeur par défaut est FALSE.

Q: Quelles statistiques de corrélation sont disponibles pour les paires de variables d'intervalle ?

Dans le paramètre "stats", l'option "intervalInterval" permet de choisir parmi : "ENTROPY" (diminution du pourcentage d'entropie), "MI" (information mutuelle), "NORMMI" (information mutuelle normalisée), "PEARSON" (corrélation de Pearson) et "SU" (incertitude symétrique).

Q: À quoi sert le paramètre "misraGries" ?

Le paramètre "misraGries", lorsqu'il est défini sur TRUE (par défaut), active l'utilisation de l'algorithme d'esquisse de fréquence Misra-Gries pour estimer la distribution si la limite de comptage distinct ("distinctCountLimit") est dépassée.

Q: Comment sauvegarder les résultats de l'analyse de corrélation ?

Il faut utiliser le paramètre requis "casOut" pour spécifier la table CAS de sortie (nom, caslib, etc.) qui stockera les résultats de l'analyse.

Q: Est-il possible de cibler un événement spécifique pour une variable cible ?

Oui, le paramètre "event" permet de spécifier le niveau de la variable cible ("target") que vous souhaitez modéliser, transformant ainsi les problèmes de classification multiniveaux en une classification binaire un-contre-tous.

Description

Explore les corrélations linéaires et non linéaires entre les variables. Cette action calcule diverses statistiques de corrélation (comme Pearson, l'information mutuelle, l'incertitude symétrique) pour identifier les relations entre les variables d'entrée et potentiellement une variable cible.

dataSciencePilot.exploreCorrelation <result=results> <status=rc> / binMissing=TRUE | FALSE, casOut={caslib="string", indexVars={"variable-name-1" <, "variable-name-2", ...>}, lifetime=64-bit-integer, memoryFormat="DVR" | "INHERIT" | "STANDARD", name="table-name", promote=TRUE | FALSE, replace=TRUE | FALSE, tableRedistUpPolicy="DEFER" | "NOREDIST" | "REBALANCE"}, distinctCountLimit=integer, ecdfTolerance=double, event="string", freq="variable-name", inputs={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}, {...}}, misraGries=TRUE | FALSE, nominals={"variable-name-1" <, "variable-name-2", ...>}, stats={intervalInterval={"ENTROPY", "MI", "NORMMI", "PEARSON", "SU"}, nominalInterval={"ENTROPY", "FTEST", "MI", "NORMMI", "SU"}, nominalNominal={"CHISQ", "CRAMERSV", "ENTROPY", "G2", "IV", "MI", "NORMMI", "SU"}}, table={caslib="string", computedOnDemand=TRUE | FALSE, computedVars={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}, {...}}, computedVarsProgram="string", dataSourceOptions={key-1=any-list-or-data-type-1 <, key-2=any-list-or-data-type-2, ...>}, importOptions={fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", fileType-specific-parameters}, name="table-name", singlePass=TRUE | FALSE, vars={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}, {...}}, where="where-expression", whereTable={casLib="string", dataSourceOptions={adls_noreq-parameters | bigquery-parameters | cas_noreq-parameters | clouddex-parameters | db2-parameters | dnfs-parameters | esp-parameters | fedsvr-parameters | gcs_noreq-parameters | hadoop-parameters | hana-parameters | impala-parameters | informix-parameters | jdbc-parameters | mongodb-parameters | mysql-parameters | odbc-parameters | oracle-parameters | path-parameters | postgres-parameters | redshift-parameters | s3-parameters | sapiq-parameters | sforce-parameters | singlestore_standard-parameters | snowflake-parameters | spark-parameters | spde-parameters | sqlserver-parameters | ss_noreq-parameters | teradata-parameters | vertica-parameters | yellowbrick-parameters}, importOptions={fileType="ANY" | "AUDIO" | "AUTO" | "BASESAS" | "CSV" | "DELIMITED" | "DOCUMENT" | "DTA" | "ESP" | "EXCEL" | "FMT" | "HDAT" | "IMAGE" | "JMP" | "LASR" | "PARQUET" | "SOUND" | "SPSS" | "VIDEO" | "XLS", fileType-specific-parameters}, name="table-name", vars={{format="string", formattedLength=integer, label="string", name="variable-name", nfd=integer, nfl=integer}, {...}}, where="where-expression"}}, target="variable-name";

Paramètres

Paramètre	Description
table	Spécifie la table d'entrée, la caslib et d'autres paramètres communs de gestion des données.
casOut	Spécifie la table CAS de sortie où seront stockés les résultats de l'analyse de corrélation.
target	Spécifie la variable cible pour laquelle les corrélations avec les autres variables doivent être calculées.
inputs	Spécifie la liste des variables d'entrée à inclure dans l'analyse. Alias : vars.
nominals	Spécifie la liste des variables à traiter comme nominales.
stats	Spécifie les mesures de corrélation à calculer (ex: PEARSON, MI pour Information Mutuelle, SU pour Incertitude Symétrique).
binMissing	Si défini à Vrai, les valeurs manquantes sont incluses dans l'analyse (traitées comme un niveau distinct pour les variables nominales ou via binning).
distinctCountLimit	Limite pour le nombre de valeurs distinctes. Par défaut 10000 (ou 1000 sans cible). Utilisé avec l'algorithme Misra-Gries si la limite est atteinte.
ecdfTolerance	Tolérance pour l'approximation de la fonction de répartition cumulative empirique (utilisée par l'algorithme de quantile).

Préparation des Données Voir la fiche de ce code dataprep

Préparation des données Cars

Chargement du jeu de données 'cars' depuis la bibliothèque SASHELP vers la mémoire CAS pour l'analyse.

Copié !

1
2	PROC CAS;
3	loadTable path="cars.sashdat" caslib="samples" casOut={name="cars", replace=true};
4
5	RUN;
6

Exemples

Analyse de base des corrélations avec une variable cible spécifiée.

Code SAS® / CAS Code en attente de validation par la communauté

Copié !

1
2	PROC CAS;
3	dataSciencePilot.exploreCorrelation / TABLE={name="cars"} target="MSRP";
4
5	RUN;
6

Résultat :
Affiche une table listant les variables corrélées avec 'MSRP', triées par force de corrélation (par défaut Information Mutuelle).

Analyse détaillant les statistiques spécifiques (Pearson, MI) et sauvegardant les résultats dans une table.

Code SAS® / CAS Code en attente de validation par la communauté

Copié !

1
2	PROC CAS;
3	dataSciencePilot.exploreCorrelation / TABLE={name="cars"} target="MSRP" stats={intervalInterval={"PEARSON", "MI"}} casOut={name="corr_results", replace=true};
4
5	RUN;
6

Résultat :
Génère une table 'corr_results' contenant les scores de corrélation Pearson et d'Information Mutuelle pour chaque variable par rapport à 'MSRP'.

FAQ

Quel est l'objectif principal de l'action exploreCorrelation ?

Comment inclure les valeurs manquantes dans l'analyse ?

Quelles statistiques de corrélation sont disponibles pour les paires de variables d'intervalle ?

À quoi sert le paramètre "misraGries" ?

Comment sauvegarder les résultats de l'analyse de corrélation ?

Est-il possible de cibler un événement spécifique pour une variable cible ?

Actions associées

dataSciencePilot

analyzeMissingPatterns

L'action `analyzeMissingPatterns` effectue une analyse des modèles de valeurs...

dataSciencePilot

exploreData

L'action exploreData effectue une exploration approfondie des données, inclua...

dataSciencePilot

featureMachine

L'action `featureMachine` du jeu d'actions `dataSciencePilot` est un moteur a...

dataSciencePilot

generateShadowFeatures

Cette action génère des fonctionnalités "ombre" (shadow features). Elle fait ...

Sommaire

Description

Préparation des données Cars

Exemples

Exploration simple des corrélations

Analyse de corrélation avancée avec sortie

FAQ

Actions associées

analyzeMissingPatterns

exploreData

featureMachine

generateShadowFeatures