dataSciencePilot

exploreData

Description

L'action exploreData effectue une exploration approfondie des données, incluant une analyse automatique des variables et un regroupement basé sur un profilage statistique complet. Elle génère des métriques détaillées pour les variables numériques et nominales, gère la détection des interactions, l'analyse de la cardinalité, l'entropie et les valeurs manquantes. Cette action est une étape fondamentale pour comprendre la structure et la qualité des données avant toute modélisation ou traitement ultérieur.

dataSciencePilot.exploreData <result=results> <status=rc> / casOut={name="table-name", ...} distinctCountLimit=integer ecdfTolerance=double event="string" explorationPolicy={...} freq="variable-name" inputs={{name="variable-name", ...}, ...} misraGries=TRUE | FALSE table={name="table-name", ...} target="variable-name" weight="variable-name";
Paramètres
ParamètreDescription
tableParamètre requis. Spécifie la table d'entrée (nom, caslib, options) contenant les données à explorer.
casOutParamètre requis. Spécifie la table de sortie CAS où seront stockés les résultats de l'exploration (statistiques, métadonnées).
targetSpécifie la variable cible (réponse) pour l'analyse. Utile pour évaluer les relations entre les variables d'entrée et une cible spécifique.
inputsSpécifie la liste des variables d'entrée à inclure dans l'analyse. Si non spécifié, toutes les variables sont analysées.
explorationPolicyDéfinit les règles et seuils pour l'analyse automatique (ex: seuils de cardinalité, détection des valeurs aberrantes, gestion des valeurs manquantes).
freqSpécifie une variable numérique contenant la fréquence d'occurrence pour chaque observation.
weightSpécifie une variable numérique contenant le poids à appliquer à chaque observation lors de l'analyse.
misraGriesSi défini à TRUE, utilise l'algorithme de Misra-Gries pour estimer la distribution des fréquences lorsque la limite de comptage distinct est dépassée.
distinctCountLimitDéfinit la limite du nombre de valeurs distinctes à compter exactement avant de passer à une estimation ou d'arrêter.
Préparation des Données Voir la fiche de ce code dataprep
Création de données de test (Voitures)

Chargement de la table 'cars' de la bibliothèque SASHELP vers une session CAS pour démonstration.

Copié !
1 
2PROC CAS;
3 
4SESSION casauto;
5LIBNAME mycas cas;
6 
7DATA mycas.cars;
8SET sashelp.cars;
9 
10RUN;
11 

Exemples

Analyse standard de toutes les variables de la table 'cars' avec génération d'une table de résultats.

Code SAS® / CAS Code en attente de validation par la communauté
Copié !
1 
2PROC CAS;
3dataSciencePilot.exploreData / TABLE={name="cars", caslib="casuser"} casOut={name="explore_results", caslib="casuser", replace=true};
4 
5RUN;
6 
Résultat :
Une table CAS 'explore_results' contenant les statistiques descriptives, les types de variables et les métriques de qualité pour l'ensemble des colonnes.

Analyse ciblée sur la variable 'Origin' avec des seuils de cardinalité et de valeurs manquantes personnalisés pour affiner le profilage.

Code SAS® / CAS Code en attente de validation par la communauté
Copié !
1 
2PROC CAS;
3dataSciencePilot.exploreData / TABLE={name="cars", caslib="casuser"} target="Origin" casOut={name="explore_advanced", caslib="casuser", replace=true} explorationPolicy={cardinality={mediumHighCutoff=20}, missing={lowMediumCutoff=5}};
4 
5RUN;
6 
Résultat :
Une table CAS 'explore_advanced' contenant l'analyse des variables en relation avec la cible 'Origin', utilisant les seuils définis pour classer les variables selon leur cardinalité et taux de valeurs manquantes.

FAQ

Quelle est la fonction principale de l'action exploreData ?
À quoi sert le paramètre 'casOut' ?
Quel est le comportement du paramètre 'distinctCountLimit' ?
Que permet de définir le paramètre 'explorationPolicy' ?
Quel est le rôle du paramètre 'event' ?
À quoi sert le paramètre 'misraGries' ?
Comment spécifier les variables à utiliser pour l'analyse ?
Que contrôle le paramètre 'ecdfTolerance' ?
À quoi servent les paramètres 'dateVariables' et 'dateTimeVariables' dans 'explorationPolicy' ?
Quelle est l'utilité de l'option 'singlePass' dans le paramètre 'table' ?