dataPreprocess binning

Kundensegmentierung basierend auf Kaufverhalten mittels Quantil-Binning

Scénario de test & Cas d'usage

Geschäftskontext

Ein Einzelhandelsunternehmen möchte seine Kunden anhand ihres Jahresumsatzes und ihres Alters in Gruppen einteilen, um gezielte Marketingkampagnen zu erstellen. Die Quantil-Methode wird gewählt, um sicherzustellen, dass jede Gruppe eine ungefähr gleiche Anzahl von Kunden enthält, was für eine ausgewogene Kampagnenverteilung entscheidend ist.
Über das Set : dataPreprocess

Datenbereinigung, Imputation und Vorverarbeitung.

Entdecken Sie alle Aktionen von dataPreprocess
Datenaufbereitung

Erstellt eine Beispieltabelle 'KUNDENDATEN' mit 10.000 Kunden, die eine Kunden-ID, das Alter und den Jahresumsatz enthält.

Kopiert!
1DATA mycas.KUNDENDATEN;
2 call streaminit(123);
3 DO KundenID = 1 to 10000;
4 Alter = floor(18 + rand('UNIFORM') * 62);
5 Jahresumsatz = 500 + rand('UNIFORM') * 14500;
6 OUTPUT;
7 END;
8RUN;

Étapes de réalisation

1
Laden der Kundendaten in die CAS-Sitzung (implizit durch data_prep). Überprüfung der Daten.
Kopiert!
1 
2PROC CASUTIL;
3contents casdata='KUNDENDATEN' incaslib='mycas';
4RUN;
5 
2
Ausführung der 'binning'-Aktion mit der 'QUANTILE'-Methode. Erstellung von 5 Altersgruppen und 4 Umsatzgruppen. Die neuen Variablen erhalten das Präfix 'GRP_'.
Kopiert!
1PROC CAS;
2 dataPreprocess.binning /
3 TABLE={name='KUNDENDATEN'},
4 method='QUANTILE',
5 inputs={{name='Alter'}, {name='Jahresumsatz'}},
6 nBinsArray={5, 4},
7 copyVars={'KundenID'},
8 outVarsNamePrefix='GRP_Binned_Q',
9 casOut={name='KUNDEN_SEGMENTIERT', replace=true},
10 casOutBinDetails={name='BIN_DETAILS_QUANTIL', replace=true};
11RUN;
3
Überprüfung der Verteilung der Beobachtungen in den neuen Bins, um zu bestätigen, dass die Quantil-Methode funktioniert hat.
Kopiert!
1PROC CAS;
2 SIMPLE.freq /
3 TABLE={name='KUNDEN_SEGMENTIERT'},
4 inputs={'GRP_Binned_Q_Alter', 'GRP_Binned_Q_Jahresumsatz'};
5RUN;

Erwartetes Ergebnis


Die Tabelle 'KUNDEN_SEGMENTIERT' wird erstellt und enthält die 'KundenID' sowie die neuen Variablen 'GRP_Binned_Q_Alter' und 'GRP_Binned_Q_Jahresumsatz'. Die Frequenztabelle aus Schritt 3 sollte zeigen, dass jede Bin-ID (für jede Variable) eine annähernd gleiche Anzahl von Kunden enthält (ca. 2000 für Alter, ca. 2500 für Umsatz), was die korrekte Anwendung der Quantil-Methode bestätigt.