Scénario de test & Cas d'usage
Regelbasiertes Scoring von Textdokumenten.
Entdecken Sie alle Aktionen von textRuleScoreErstellt eine Tabelle mit E-Mail-Inhalten, die unsaubere Daten enthält (fehlender Text). Die Texte enthalten sowohl spezifische Begriffe als auch allgemeine Stimmungen, die herausgefiltert werden sollen.
| 1 | DATA casuser.compliance_emails; |
| 2 | INFILE DATALINES delimiter='|' missover; |
| 3 | LENGTH mail_id $20 mail_inhalt $500; |
| 4 | INPUT mail_id $ mail_inhalt $; |
| 5 | DATALINES; |
| 6 | mail_A1|Der Handel mit der Anleihe X ist ein gutes Geschäft, aber riskant. |
| 7 | mail_A2|Wir müssen den Verkauf von Fonds Y stoppen. Schlechte Performance. |
| 8 | mail_A3| |
| 9 | mail_A4|Anleihe X wird überprüft. |
| 10 | ; |
| 11 | RUN; |
| 1 | |
| 2 | PROC CASUTIL; |
| 3 | load |
| 4 | DATA=casuser.compliance_emails outcaslib='casuser' casout='compliance_emails' replace; |
| 5 | RUN; |
| 6 |
| 1 | PROC CAS; |
| 2 | textRuleScore.applyConcept / |
| 3 | TABLE={caslib='casuser', name='compliance_emails'}, |
| 4 | docId='mail_id', |
| 5 | text='mail_inhalt', |
| 6 | dropConcepts={'nlpPositive', 'nlpNegative'}, |
| 7 | matchType='LONGEST', |
| 8 | casOut={caslib='casuser', name='compliance_treffer', replace=true}; |
| 9 | RUN; |
Die Ausgabetabelle 'compliance_treffer' wird erstellt. Sie enthält nur Treffer für spezifische Finanzprodukte (z.B. 'Anleihe X', 'Fonds Y'), nicht aber für die in 'dropConcepts' angegebenen allgemeinen Konzepte wie 'gutes Geschäft' oder 'schlechte Performance'. Der Datensatz 'mail_A3' mit fehlendem Inhalt wird ignoriert und verursacht keinen Fehler. Die Verwendung von 'LONGEST' stellt sicher, dass bei überlappenden Regeln der spezifischste Treffer priorisiert wird.