Scénario de test & Cas d'usage
Extraktion boolescher Regeln zur Klassifikation.
Entdecken Sie alle Aktionen von boolRuleErstellung eines Datensatzes mit spärlichen Signalen, wo nur wenige Begriffe stark mit der Zielvariable korrelieren.
| 1 | DATA mycas.fraud_terms; INPUT docid termid; DATALINES; |
| 2 | 1 999 |
| 3 | 2 10 |
| 4 | 3 999 |
| 5 | 4 20 |
| 6 | 5 30 |
| 7 | 6 999 |
| 8 | ; RUN; |
| 9 | |
| 10 | DATA mycas.fraud_info; INPUT docid is_fraud $; DATALINES; |
| 11 | 1 YES |
| 12 | 2 NO |
| 13 | 3 YES |
| 14 | 4 NO |
| 15 | 5 NO |
| 16 | 6 YES |
| 17 | ; RUN; |
| 1 | PROC CAS; |
| 2 | boolRule.brTrain / |
| 3 | TABLE={name='fraud_terms'} |
| 4 | docId='docid' |
| 5 | termId='termid' |
| 6 | docInfo={ |
| 7 | TABLE={name='fraud_info'} |
| 8 | id='docid' |
| 9 | targets={'is_fraud'} |
| 10 | } |
| 11 | gPositive=10.0 |
| 12 | gNegative=10.0 |
| 13 | minSupports=2 |
| 14 | casOuts={rules={name='strict_fraud_rules', replace=true}}; |
| 15 | RUN; |
Es wird erwartet, dass nur sehr wenige oder gar keine Regeln generiert werden, da der Schwellenwert (gPositive=10) sehr hoch angesetzt ist. Das System darf nicht abstürzen, sondern sollte eine leere oder sehr kleine Ergebnistabelle zurückgeben und eine entsprechende Meldung im Log ausgeben, dass die Kriterien restriktiv waren.