Betrugserkennung mit strengen Filterkriterien (Edge Case)

Geschäftskontext

Eine Bank möchte extrem seltene, aber eindeutige Betrugsmuster in Transaktionsbeschreibungen identifizieren. Da Fehlalarme (False Positives) sehr kostspielig sind, werden sehr strenge Schwellenwerte für die Regelgenauigkeit (g-Score) festgelegt. Dieser Test prüft, wie sich die Aktion verhält, wenn kaum Regeln gefunden werden, die den strengen Kriterien entsprechen.

Über das Set : boolRule

Extraktion boolescher Regeln zur Klassifikation.

Entdecken Sie alle Aktionen von boolRule

Datenaufbereitung

Erstellung eines Datensatzes mit spärlichen Signalen, wo nur wenige Begriffe stark mit der Zielvariable korrelieren.

Kopiert!

1	DATA mycas.fraud_terms; INPUT docid termid; DATALINES;
2	1 999
3	2 10
4	3 999
5	4 20
6	5 30
7	6 999
8	; RUN;
9
10	DATA mycas.fraud_info; INPUT docid is_fraud $; DATALINES;
11	1 YES
12	2 NO
13	3 YES
14	4 NO
15	5 NO
16	6 YES
17	; RUN;

Étapes de réalisation

Ausführung mit extrem hohem gPositive-Wert, um nur die stärksten Indikatoren zu erzwingen.

Kopiert!

1	PROC CAS;
2	boolRule.brTrain /
3	TABLE={name='fraud_terms'}
4	docId='docid'
5	termId='termid'
6	docInfo={
7	TABLE={name='fraud_info'}
8	id='docid'
9	targets={'is_fraud'}
10	}
11	gPositive=10.0
12	gNegative=10.0
13	minSupports=2
14	casOuts={rules={name='strict_fraud_rules', replace=true}};
15	RUN;

Erwartetes Ergebnis

Es wird erwartet, dass nur sehr wenige oder gar keine Regeln generiert werden, da der Schwellenwert (gPositive=10) sehr hoch angesetzt ist. Das System darf nicht abstürzen, sondern sollte eine leere oder sehr kleine Ergebnistabelle zurückgeben und eine entsprechende Meldung im Log ausgeben, dass die Kriterien restriktiv waren.

Voir la documentation technique de brTrain