Scénario de test & Cas d'usage
Datenbereinigung, Imputation und Vorverarbeitung.
Entdecken Sie alle Aktionen von dataPreprocessErstellung eines Datensatzes 'kredit_daten' mit Kundeninformationen und einer binären Zielvariable (Ausfall).
| 1 | |
| 2 | DATA casuser.kredit_daten; |
| 3 | LENGTH beruf $20 wohnstatus $10; |
| 4 | DO i=1 to 1000; |
| 5 | IF rand('UNIFORM') < 0.3 THEN beruf='Angestellt'; |
| 6 | ELSE IF rand('UNIFORM') < 0.6 THEN beruf='Selbststaendig'; |
| 7 | ELSE beruf='Rentner'; |
| 8 | IF rand('UNIFORM') < 0.5 THEN wohnstatus='Miete'; |
| 9 | ELSE wohnstatus='Eigentum'; |
| 10 | ausfall = (rand('UNIFORM') < 0.1); |
| 11 | OUTPUT; |
| 12 | END; |
| 13 | |
| 14 | RUN; |
| 15 |
| 1 | PROC CAS; |
| 2 | SESSION casauto; |
| 3 | RUN; |
| 1 | PROC CAS; |
| 2 | dataPreprocess.catTrans / |
| 3 | TABLE={name='kredit_daten', caslib='casuser'}, |
| 4 | method='WOE', |
| 5 | inputs={{name='beruf'}, {name='wohnstatus'}}, |
| 6 | targets={{name='ausfall'}}, |
| 7 | events={'1'}, |
| 8 | casOut={name='woe_ergebnisse', caslib='casuser', replace=true}, |
| 9 | casOutBinDetails={name='woe_details', caslib='casuser', replace=true}, |
| 10 | copyVars={'ausfall', 'beruf'}; |
| 11 | RUN; |
Die Aktion erstellt erfolgreich die Tabelle 'woe_ergebnisse', in der die ursprünglichen Kategorien durch ihre WOE-Werte ersetzt wurden. Die Tabelle 'woe_details' enthält die Informationswerte (IV) für jede Variable, was die Bewertung der Variablenwichtigkeit ermöglicht.