Scénario de test & Cas d'usage
Datenbereinigung, Imputation und Vorverarbeitung.
Entdecken Sie alle Aktionen von dataPreprocessErstellt eine Beispieltabelle 'KUNDENDATEN' mit 10.000 Kunden, die eine Kunden-ID, das Alter und den Jahresumsatz enthält.
| 1 | DATA mycas.KUNDENDATEN; |
| 2 | call streaminit(123); |
| 3 | DO KundenID = 1 to 10000; |
| 4 | Alter = floor(18 + rand('UNIFORM') * 62); |
| 5 | Jahresumsatz = 500 + rand('UNIFORM') * 14500; |
| 6 | OUTPUT; |
| 7 | END; |
| 8 | RUN; |
| 1 | |
| 2 | PROC CASUTIL; |
| 3 | contents casdata='KUNDENDATEN' incaslib='mycas'; |
| 4 | RUN; |
| 5 |
| 1 | PROC CAS; |
| 2 | dataPreprocess.binning / |
| 3 | TABLE={name='KUNDENDATEN'}, |
| 4 | method='QUANTILE', |
| 5 | inputs={{name='Alter'}, {name='Jahresumsatz'}}, |
| 6 | nBinsArray={5, 4}, |
| 7 | copyVars={'KundenID'}, |
| 8 | outVarsNamePrefix='GRP_Binned_Q', |
| 9 | casOut={name='KUNDEN_SEGMENTIERT', replace=true}, |
| 10 | casOutBinDetails={name='BIN_DETAILS_QUANTIL', replace=true}; |
| 11 | RUN; |
| 1 | PROC CAS; |
| 2 | SIMPLE.freq / |
| 3 | TABLE={name='KUNDEN_SEGMENTIERT'}, |
| 4 | inputs={'GRP_Binned_Q_Alter', 'GRP_Binned_Q_Jahresumsatz'}; |
| 5 | RUN; |
Die Tabelle 'KUNDEN_SEGMENTIERT' wird erstellt und enthält die 'KundenID' sowie die neuen Variablen 'GRP_Binned_Q_Alter' und 'GRP_Binned_Q_Jahresumsatz'. Die Frequenztabelle aus Schritt 3 sollte zeigen, dass jede Bin-ID (für jede Variable) eine annähernd gleiche Anzahl von Kunden enthält (ca. 2000 für Alter, ca. 2500 für Umsatz), was die korrekte Anwendung der Quantil-Methode bestätigt.