dataSciencePilot analyzeMissingPatterns

Analyse des profils clients incomplets pour une campagne marketing

Scénario de test & Cas d'usage

Contexte Métier

Une équipe marketing souhaite lancer une campagne ciblée, mais constate que de nombreux profils clients dans leur base de données sont incomplets. L'objectif est d'utiliser `analyzeMissingPatterns` pour identifier les groupes de clients (par région, par ancienneté) pour lesquels les informations démographiques (âge, revenu) sont le plus souvent manquantes, afin d'adapter les stratégies de collecte de données.
À propos du Set : dataSciencePilot

Machine Learning automatisé (AutoML) et génération de pipelines.

Découvrir toutes les actions de dataSciencePilot
Préparation des Données

Création d'une table de clients avec des informations manquantes sur le revenu et l'âge, en particulier pour les nouveaux clients et une région spécifique.

Copié !
1DATA casuser.clients_marketing;
2 LENGTH REGION $20. JOB $20.;
3 DO ID_CLIENT = 1 to 2000;
4 ANCIENNETE_MOIS = int(rand('UNIFORM') * 60);
5 IF rand('UNIFORM') < 0.3 THEN REGION = 'Ouest';
6 ELSE IF rand('UNIFORM') < 0.6 THEN REGION = 'Est';
7 ELSE REGION = 'Sud';
8 IF rand('UNIFORM') < 0.5 THEN JOB = 'Employé'; ELSE JOB='Cadre';
9 AGE = 25 + int(rand('UNIFORM') * 40);
10 REVENU = 30000 + int(rand('UNIFORM') * 50000);
11 /* Introduction des valeurs manquantes ciblées */
12 IF ANCIENNETE_MOIS < 6 or REGION = 'Ouest' THEN call missing(REVENU);
13 IF ANCIENNETE_MOIS < 12 and REGION IN ('Ouest', 'Sud') THEN call missing(AGE);
14 OUTPUT;
15 END;
16RUN;

Étapes de réalisation

1
Chargement de la table de clients dans CAS.
Copié !
1 
2PROC CASUTIL;
3load
4DATA=casuser.clients_marketing casout='clients_marketing' replace;
5QUIT;
6 
2
Exécution de l'analyse en se concentrant sur les variables démographiques et en spécifiant les variables nominales pour l'analyse.
Copié !
1PROC CAS;
2 dataSciencePilot.analyzeMissingPatterns
3 TABLE={name='clients_marketing'},
4 inputs={'AGE', 'REVENU'},
5 nominals={'REGION', 'JOB'},
6 casOut={name='marketing_missing_patterns', replace=true};
7RUN;
8QUIT;

Résultat Attendu


La table de sortie `marketing_missing_patterns` doit clairement montrer un modèle de valeurs manquantes élevé pour la variable `REVENU` lorsque la `REGION` est 'Ouest' et lorsque l'ancienneté est faible. Un autre modèle doit apparaître pour `AGE` manquant, corrélé à une ancienneté faible et aux régions 'Ouest' et 'Sud'. Cela validera la capacité de l'action à identifier des corrélations entre les valeurs manquantes et d'autres attributs.