L'action exploreData effectue une exploration approfondie des données, incluant une analyse automatique des variables et un regroupement basé sur un profilage statistique complet. Elle génère des métriques détaillées pour les variables numériques et nominales, gère la détection des interactions, l'analyse de la cardinalité, l'entropie et les valeurs manquantes. Cette action est une étape fondamentale pour comprendre la structure et la qualité des données avant toute modélisation ou traitement ultérieur.
| Paramètre | Description |
|---|---|
| table | Paramètre requis. Spécifie la table d'entrée (nom, caslib, options) contenant les données à explorer. |
| casOut | Paramètre requis. Spécifie la table de sortie CAS où seront stockés les résultats de l'exploration (statistiques, métadonnées). |
| target | Spécifie la variable cible (réponse) pour l'analyse. Utile pour évaluer les relations entre les variables d'entrée et une cible spécifique. |
| inputs | Spécifie la liste des variables d'entrée à inclure dans l'analyse. Si non spécifié, toutes les variables sont analysées. |
| explorationPolicy | Définit les règles et seuils pour l'analyse automatique (ex: seuils de cardinalité, détection des valeurs aberrantes, gestion des valeurs manquantes). |
| freq | Spécifie une variable numérique contenant la fréquence d'occurrence pour chaque observation. |
| weight | Spécifie une variable numérique contenant le poids à appliquer à chaque observation lors de l'analyse. |
| misraGries | Si défini à TRUE, utilise l'algorithme de Misra-Gries pour estimer la distribution des fréquences lorsque la limite de comptage distinct est dépassée. |
| distinctCountLimit | Définit la limite du nombre de valeurs distinctes à compter exactement avant de passer à une estimation ou d'arrêter. |
Chargement de la table 'cars' de la bibliothèque SASHELP vers une session CAS pour démonstration.
| 1 | |
| 2 | PROC CAS; |
| 3 | |
| 4 | SESSION casauto; |
| 5 | LIBNAME mycas cas; |
| 6 | |
| 7 | DATA mycas.cars; |
| 8 | SET sashelp.cars; |
| 9 | |
| 10 | RUN; |
| 11 |
Analyse standard de toutes les variables de la table 'cars' avec génération d'une table de résultats.
| 1 | |
| 2 | PROC CAS; |
| 3 | dataSciencePilot.exploreData / TABLE={name="cars", caslib="casuser"} casOut={name="explore_results", caslib="casuser", replace=true}; |
| 4 | |
| 5 | RUN; |
| 6 |
Analyse ciblée sur la variable 'Origin' avec des seuils de cardinalité et de valeurs manquantes personnalisés pour affiner le profilage.
| 1 | |
| 2 | PROC CAS; |
| 3 | dataSciencePilot.exploreData / TABLE={name="cars", caslib="casuser"} target="Origin" casOut={name="explore_advanced", caslib="casuser", replace=true} explorationPolicy={cardinality={mediumHighCutoff=20}, missing={lowMediumCutoff=5}}; |
| 4 | |
| 5 | RUN; |
| 6 |