bart bartGauss

Analyse von Kreditantragsdaten mit hoher Kardinalität und Volumen

Scénario de test & Cas d'usage

Geschäftskontext

Eine Bank muss die Kreditwürdigkeit von Antragstellern bewerten. Das Modell muss eine große Datenmenge (500.000 Anträge) mit einer Mischung aus kontinuierlichen und kategorialen Variablen verarbeiten, einschließlich einer Variable mit hoher Kardinalität (Postleitzahl).
Über das Set : bart

Bayesianische additive Regressionsbäume.

Entdecken Sie alle Aktionen von bart
Datenaufbereitung

Erstellt eine große Tabelle 'kredit_antraege' (500.000 Zeilen) mit dem Einkommen, Alter, der Postleitzahl des Antragstellers und einem normalisierten Kredit-Score als Zielvariable.

Kopiert!
1DATA casuser.kredit_antraege;
2DO i = 1 to 500000;
3 einkommen = 30000 + 120000 * rand('UNIFORM');
4 alter = 21 + 49 * rand('UNIFORM');
5 plz = 'PLZ_' || put(rand('INTEGER', 1, 9999), z4.);
6 kredit_score = 600 + 0.002 * einkommen - 2 * alter + rand('NORMAL', 0, 30);
7 OUTPUT;
8END;
9RUN;

Étapes de réalisation

1
Laden der großen Datentabelle in den CAS-Server.
Kopiert!
1 
2PROC CASUTIL;
3load
4DATA=casuser.kredit_antraege outcaslib='casuser' casout='kredit_antraege' replace;
5RUN;
6 
2
Ausführen der bart.bartGauss-Aktion mit Binning für kontinuierliche Variablen und Angabe der nominalen Variable. Nutzung der Option 'trainInMem' zur Leistungsverbesserung.
Kopiert!
1PROC CAS;
2bart.bartGauss /
3 TABLE={name='kredit_antraege'},
4 target='kredit_score',
5 inputs={{name='einkommen'}, {name='alter'}},
6 nominals={{name='plz'}},
7 nTree=100,
8 nBI=500,
9 nMC=2000,
10 nBins=50,
11 quantileBin=true,
12 trainInMem=true,
13 seed=123;
14RUN;
15QUIT;

Erwartetes Ergebnis


Die Aktion schließt die Verarbeitung der 500.000 Beobachtungen innerhalb einer akzeptablen Zeit ab. Die Verwendung von 'quantileBin=true' und 'nBins=50' führt zu einer effizienten Handhabung der kontinuierlichen Prädiktoren. Das Modell wird erfolgreich trainiert, und die Ausgabeprotokolle zeigen die Zusammenfassung des Laufs, ohne Speicher- oder Leistungsfehler anzuzeigen.