L'action `analyzeMissingPatterns` effectue une analyse des modèles de valeurs manquantes dans un jeu de données. Elle est utile pour comprendre la nature et la structure des données manquantes, ce qui est une étape cruciale dans la préparation des données pour le machine learning. Cette action peut identifier les combinaisons de variables qui ont souvent des valeurs manquantes ensemble, et fournir des statistiques sur la fréquence de ces modèles.
| Paramètre | Description |
|---|---|
| casOut | Spécifie la table CAS pour stocker les résultats de l'analyse. |
| distinctCountLimit | Spécifie la limite de comptage distinct. Si la limite est dépassée et que le paramètre `misraGries` est à True, l'algorithme de sketch de fréquence Misra-Gries est utilisé pour estimer la distribution de fréquence. Sinon, l'opération de comptage distinct est abandonnée. |
| ecdfTolerance | Spécifie la valeur de tolérance pour la fonction de distribution cumulative empirique. Cette valeur est utilisée par l'algorithme de sketch de quantile. |
| freq | Spécifie la variable de fréquence. |
| inputs | Spécifie les variables à utiliser pour l'analyse. Vous pouvez spécifier un sous-ensemble des variables de la table d'entrée. |
| misraGries | Lorsque défini sur True, utilise l'algorithme Misra-Gries pour l'estimation de la distribution de fréquence si la limite de comptage distinct est dépassée. |
| nominals | Spécifie les variables nominales. |
| table | Spécifie la table d'entrée contenant les données à analyser. |
| target | Spécifie la variable cible. |
Ce code crée une table CAS nommée `hmeq_missing` avec des valeurs manquantes intentionnelles pour illustrer l'analyse des modèles de valeurs manquantes. La table est basée sur la table `sampsio.hmeq`.
| 1 | DATA casuser.hmeq_missing; |
| 2 | SET sampsio.hmeq; |
| 3 | IF _n_ in (1, 10, 20) THEN call missing(of _all_); |
| 4 | IF 5 <= _n_ <= 15 THEN call missing(yoj, derog); |
| 5 | IF 30 <= _n_ <= 40 THEN call missing(value, reason); |
| 6 | RUN; |
Cet exemple exécute une analyse de base des modèles de valeurs manquantes sur la table `hmeq_missing` et stocke les résultats dans une table nommée `missing_patterns_analysis`.
| 1 | PROC CAS; |
| 2 | dataSciencePilot.analyzeMissingPatterns |
| 3 | TABLE={name='hmeq_missing'}, |
| 4 | casOut={name='missing_patterns_analysis', replace=true}; |
| 5 | RUN; |
| 6 | QUIT; |
Cet exemple effectue une analyse des modèles de valeurs manquantes en se concentrant sur un sous-ensemble de variables d'entrée (`inputs`) et en spécifiant une variable cible (`target`). Cela permet d'analyser comment les valeurs manquantes dans les prédicteurs se rapportent à la variable de résultat.
| 1 | PROC CAS; |
| 2 | dataSciencePilot.analyzeMissingPatterns |
| 3 | TABLE={name='hmeq_missing'}, |
| 4 | target='bad', |
| 5 | inputs={'loan', 'mortdue', 'value', 'yoj', 'derog', 'delinq', 'clage', 'ninq', 'clno', 'debtinc'}, |
| 6 | nominals={'reason', 'job'}, |
| 7 | casOut={name='detailed_missing_analysis', replace=true, caslib='casuser'}; |
| 8 | RUN; |
| 9 | QUIT; |
Pour les très grands jeux de données avec une haute cardinalité, il est efficace d'utiliser les paramètres `distinctCountLimit` et `misraGries`. Cet exemple montre comment limiter le comptage distinct et utiliser l'algorithme Misra-Gries pour une estimation efficace.
| 1 | PROC CAS; |
| 2 | dataSciencePilot.analyzeMissingPatterns |
| 3 | TABLE={name='hmeq_missing'}, |
| 4 | distinctCountLimit=5000, |
| 5 | misraGries=true, |
| 6 | casOut={name='large_data_missing_analysis', replace=true}; |
| 7 | RUN; |
| 8 | QUIT; |
Une équipe marketing souhaite lancer une campagne ciblée, mais constate que de nombreux profils clients dans leur base de données sont incomplets. L'objectif est d'utiliser `ana...
Dans une usine, des milliers de capteurs génèrent des données en continu. Certaines pannes de capteurs entraînent des données manquantes. L'objectif est d'analyser rapidement de...
Une étude clinique collecte des données sur des patients. Certains examens sont optionnels, et certains patients abandonnent l'étude, résultant en des blocs entiers de données m...