Scénario de test & Cas d'usage
Nettoyage, imputation et préparation des données.
Découvrir toutes les actions de dataPreprocessCréation d'une table de patients avec des taux de cholestérol contenant des valeurs manquantes, des extrêmes et des valeurs frontières.
| 1 | DATA mycas.patients_cliniques; |
| 2 | INPUT id_patient taux_cholesterol; |
| 3 | DATALINES; |
| 4 | 101 185 |
| 5 | 102 200 |
| 6 | 103 239 |
| 7 | 104 240 |
| 8 | 105 . |
| 9 | 106 350 |
| 10 | 107 160 |
| 11 | 108 . |
| 12 | 109 199.9 |
| 13 | 110 239.1 |
| 14 | ; |
| 15 | RUN; |
| 1 | PROC CAS; |
| 2 | dataPreprocess.binning / |
| 3 | TABLE={name='patients_cliniques', caslib='mycas'}, |
| 4 | inputs={{name='taux_cholesterol'}}, |
| 5 | method='CUTPTS', |
| 6 | cutPoints={200, 240}, |
| 7 | binMissing=TRUE, |
| 8 | binMapping='RIGHT', /* Utilise [), [), [) -> 200 ira dans la 2e classe */ |
| 9 | copyAllVars=TRUE, |
| 10 | outVarsNameSuffix='_CAT', |
| 11 | casOut={name='patients_binned', caslib='mycas', replace=true}; |
| 12 | RUN; |
La table `mycas.patients_binned` est créée et contient toutes les colonnes originales. Une nouvelle colonne `taux_cholesterol_CAT` est ajoutée. Les patients 105 et 108 (valeurs manquantes) ont la valeur 0. Le patient 102 (valeur 200) est dans la classe 2 (intervalle [200, 240)). Le patient 104 (valeur 240) est dans la classe 3 (intervalle [240, ...]). Le patient 109 (199.9) est dans la classe 1. Le mapping des frontières est correctement géré selon la règle 'RIGHT'.