textRuleScore applyConcept

Screening von Finanzkommunikation mit Ausschluss von Störkonzepten und Umgang mit unsauberen Daten

Scénario de test & Cas d'usage

Geschäftskontext

Eine Finanzaufsichtsbehörde prüft interne E-Mails auf Verstöße gegen Compliance-Richtlinien. Sie sucht nach Erwähnungen spezifischer, riskanter Finanzprodukte, möchte aber allgemeine Stimmungsbegriffe (z.B. 'gutes Geschäft', 'schlechte Performance') ignorieren, um falsch-positive Ergebnisse zu reduzieren. Die Datenquelle ist unzuverlässig und kann fehlende Werte enthalten.
Über das Set : textRuleScore

Regelbasiertes Scoring von Textdokumenten.

Entdecken Sie alle Aktionen von textRuleScore
Datenaufbereitung

Erstellt eine Tabelle mit E-Mail-Inhalten, die unsaubere Daten enthält (fehlender Text). Die Texte enthalten sowohl spezifische Begriffe als auch allgemeine Stimmungen, die herausgefiltert werden sollen.

Kopiert!
1DATA casuser.compliance_emails;
2 INFILE DATALINES delimiter='|' missover;
3 LENGTH mail_id $20 mail_inhalt $500;
4 INPUT mail_id $ mail_inhalt $;
5 DATALINES;
6mail_A1|Der Handel mit der Anleihe X ist ein gutes Geschäft, aber riskant.
7mail_A2|Wir müssen den Verkauf von Fonds Y stoppen. Schlechte Performance.
8mail_A3|
9mail_A4|Anleihe X wird überprüft.
10;
11RUN;

Étapes de réalisation

1
Laden der unsauberen Compliance-Daten in CAS.
Kopiert!
1 
2PROC CASUTIL;
3load
4DATA=casuser.compliance_emails outcaslib='casuser' casout='compliance_emails' replace;
5RUN;
6 
2
Ausführen von applyConcept unter Ausschluss der Konzepte 'nlpPositive' und 'nlpNegative' und Verwendung von 'LONGEST' als Übereinstimmungstyp, um die präzisesten Treffer zu erhalten.
Kopiert!
1PROC CAS;
2 textRuleScore.applyConcept /
3 TABLE={caslib='casuser', name='compliance_emails'},
4 docId='mail_id',
5 text='mail_inhalt',
6 dropConcepts={'nlpPositive', 'nlpNegative'},
7 matchType='LONGEST',
8 casOut={caslib='casuser', name='compliance_treffer', replace=true};
9RUN;

Erwartetes Ergebnis


Die Ausgabetabelle 'compliance_treffer' wird erstellt. Sie enthält nur Treffer für spezifische Finanzprodukte (z.B. 'Anleihe X', 'Fonds Y'), nicht aber für die in 'dropConcepts' angegebenen allgemeinen Konzepte wie 'gutes Geschäft' oder 'schlechte Performance'. Der Datensatz 'mail_A3' mit fehlendem Inhalt wird ignoriert und verursacht keinen Fehler. Die Verwendung von 'LONGEST' stellt sicher, dass bei überlappenden Regeln der spezifischste Treffer priorisiert wird.