dataPreprocess catTrans

Betrugserkennung: Umgang mit seltenen Codes und fehlenden Werten

Scénario de test & Cas d'usage

Geschäftskontext

Bei der Analyse von Finanztransaktionen treten oft spezifische Fehlercodes auf, die sehr selten sind, sowie fehlende Standortdaten. Um ein robustes Betrugsmodell zu trainieren, müssen seltene Fehlercodes gruppiert ('Rare Binning') und fehlende Werte explizit als eigene Kategorie behandelt werden, anstatt sie zu ignorieren.
Über das Set : dataPreprocess

Datenbereinigung, Imputation und Vorverarbeitung.

Entdecken Sie alle Aktionen von dataPreprocess
Datenaufbereitung

Erstellung von Transaktionsdaten mit seltenen Werten und NULLs.

Kopiert!
1 
2DATA casuser.transaktionen;
3LENGTH error_code $10 standort $10;
4DO i=1 to 200;
5IF rand('UNIFORM') < 0.05 THEN error_code='E_999';
6/* Selten */ ELSE IF rand('UNIFORM') < 0.10 THEN error_code='E_888';
7/* Selten */ ELSE error_code='E_001';
8/* Häufig */ IF rand('UNIFORM') < 0.2 THEN call missing(standort);
9ELSE standort='Berlin';
10OUTPUT;
11END;
12 
13RUN;
14 

Étapes de réalisation

1
Vorbereitung der Daten.
Kopiert!
1 
2PROC CAS;
3 
4SIMPLE.freq / TABLE={name='transaktionen', caslib='casuser'} inputs={'error_code', 'standort'};
5 
6 
7RUN;
8 
2
Gruppierung seltener Werte (GROUPRARE) und Einbeziehung fehlender Werte als gültige Gruppe.
Kopiert!
1PROC CAS;
2 dataPreprocess.catTrans /
3 TABLE={name='transaktionen', caslib='casuser'},
4 method='GROUPRARE',
5 inputs={{name='error_code'}, {name='standort'}},
6 rareThreshold=15,
7 includeMissingGroup=true,
8 casOut={name='transaktionen_clean', caslib='casuser', replace=true};
9 RUN;

Erwartetes Ergebnis


Die seltenen Fehlercodes (E_999, E_888) werden in einer Sammelkategorie zusammengefasst, da ihre Häufigkeit unter dem Schwellenwert liegt. Die fehlenden Werte in der Spalte 'standort' werden nicht gelöscht, sondern als eigene Gruppe behandelt, was die Datenintegrität für die Analyse bewahrt.