Scénario de test & Cas d'usage
Machine Learning automatisé (AutoML) et génération de pipelines.
Découvrir toutes les actions de dataSciencePilotCréation d'une table de clients avec des informations manquantes sur le revenu et l'âge, en particulier pour les nouveaux clients et une région spécifique.
| 1 | DATA casuser.clients_marketing; |
| 2 | LENGTH REGION $20. JOB $20.; |
| 3 | DO ID_CLIENT = 1 to 2000; |
| 4 | ANCIENNETE_MOIS = int(rand('UNIFORM') * 60); |
| 5 | IF rand('UNIFORM') < 0.3 THEN REGION = 'Ouest'; |
| 6 | ELSE IF rand('UNIFORM') < 0.6 THEN REGION = 'Est'; |
| 7 | ELSE REGION = 'Sud'; |
| 8 | IF rand('UNIFORM') < 0.5 THEN JOB = 'Employé'; ELSE JOB='Cadre'; |
| 9 | AGE = 25 + int(rand('UNIFORM') * 40); |
| 10 | REVENU = 30000 + int(rand('UNIFORM') * 50000); |
| 11 | /* Introduction des valeurs manquantes ciblées */ |
| 12 | IF ANCIENNETE_MOIS < 6 or REGION = 'Ouest' THEN call missing(REVENU); |
| 13 | IF ANCIENNETE_MOIS < 12 and REGION IN ('Ouest', 'Sud') THEN call missing(AGE); |
| 14 | OUTPUT; |
| 15 | END; |
| 16 | RUN; |
| 1 | |
| 2 | PROC CASUTIL; |
| 3 | load |
| 4 | DATA=casuser.clients_marketing casout='clients_marketing' replace; |
| 5 | QUIT; |
| 6 |
| 1 | PROC CAS; |
| 2 | dataSciencePilot.analyzeMissingPatterns |
| 3 | TABLE={name='clients_marketing'}, |
| 4 | inputs={'AGE', 'REVENU'}, |
| 5 | nominals={'REGION', 'JOB'}, |
| 6 | casOut={name='marketing_missing_patterns', replace=true}; |
| 7 | RUN; |
| 8 | QUIT; |
La table de sortie `marketing_missing_patterns` doit clairement montrer un modèle de valeurs manquantes élevé pour la variable `REVENU` lorsque la `REGION` est 'Ouest' et lorsque l'ancienneté est faible. Un autre modèle doit apparaître pour `AGE` manquant, corrélé à une ancienneté faible et aux régions 'Ouest' et 'Sud'. Cela validera la capacité de l'action à identifier des corrélations entre les valeurs manquantes et d'autres attributs.