Screening von Finanzkommunikation mit Ausschluss von Störkonzepten und Umgang mit unsauberen Daten

Geschäftskontext

Eine Finanzaufsichtsbehörde prüft interne E-Mails auf Verstöße gegen Compliance-Richtlinien. Sie sucht nach Erwähnungen spezifischer, riskanter Finanzprodukte, möchte aber allgemeine Stimmungsbegriffe (z.B. 'gutes Geschäft', 'schlechte Performance') ignorieren, um falsch-positive Ergebnisse zu reduzieren. Die Datenquelle ist unzuverlässig und kann fehlende Werte enthalten.

Über das Set : textRuleScore

Regelbasiertes Scoring von Textdokumenten.

Entdecken Sie alle Aktionen von textRuleScore

Datenaufbereitung

Erstellt eine Tabelle mit E-Mail-Inhalten, die unsaubere Daten enthält (fehlender Text). Die Texte enthalten sowohl spezifische Begriffe als auch allgemeine Stimmungen, die herausgefiltert werden sollen.

Kopiert!

1	DATA casuser.compliance_emails;
2	INFILE DATALINES delimiter='\|' missover;
3	LENGTH mail_id $20 mail_inhalt $500;
4	INPUT mail_id $ mail_inhalt $;
5	DATALINES;
6	mail_A1\|Der Handel mit der Anleihe X ist ein gutes Geschäft, aber riskant.
7	mail_A2\|Wir müssen den Verkauf von Fonds Y stoppen. Schlechte Performance.
8	mail_A3\|
9	mail_A4\|Anleihe X wird überprüft.
10	;
11	RUN;

Étapes de réalisation

Laden der unsauberen Compliance-Daten in CAS.

Kopiert!

1
2	PROC CASUTIL;
3	load
4	DATA=casuser.compliance_emails outcaslib='casuser' casout='compliance_emails' replace;
5	RUN;
6

Ausführen von applyConcept unter Ausschluss der Konzepte 'nlpPositive' und 'nlpNegative' und Verwendung von 'LONGEST' als Übereinstimmungstyp, um die präzisesten Treffer zu erhalten.

Kopiert!

1	PROC CAS;
2	textRuleScore.applyConcept /
3	TABLE={caslib='casuser', name='compliance_emails'},
4	docId='mail_id',
5	text='mail_inhalt',
6	dropConcepts={'nlpPositive', 'nlpNegative'},
7	matchType='LONGEST',
8	casOut={caslib='casuser', name='compliance_treffer', replace=true};
9	RUN;

Erwartetes Ergebnis

Die Ausgabetabelle 'compliance_treffer' wird erstellt. Sie enthält nur Treffer für spezifische Finanzprodukte (z.B. 'Anleihe X', 'Fonds Y'), nicht aber für die in 'dropConcepts' angegebenen allgemeinen Konzepte wie 'gutes Geschäft' oder 'schlechte Performance'. Der Datensatz 'mail_A3' mit fehlendem Inhalt wird ignoriert und verursacht keinen Fehler. Die Verwendung von 'LONGEST' stellt sicher, dass bei überlappenden Regeln der spezifischste Treffer priorisiert wird.

Voir la documentation technique de applyConcept