Diese Aktion erstellt ein Konzeptmodell (auch als LITI-Modell bekannt) unter Verwendung von linguistischen Regeln, die in einer Konfigurationstabelle definiert sind. Es kompiliert diese Regeln in ein binäres Modell, das in einer CAS-Ausgabetabelle gespeichert wird. Dieses binäre Modell ist für die Verwendung in anderen Textanalyse-Aktionen wie `textParse.tpParse` und `textMining.tmMine` optimiert, um Konzepte, Entitäten und Fakten aus Textdaten effizient zu extrahieren. Die Aktion kann auch vordefinierte SAS-Entitäten (wie Daten, Orte, Namen) einbeziehen und vordefinierte Sentiment-Modelle erweitern, was die Leistungsfähigkeit der Textanalyse erheblich steigert.
| Parameter | Beschreibung |
|---|---|
| casOut | Gibt die Ausgabe-CAS-Tabelle an, die das binäre Konzeptmodell enthält. Diese Tabelle ist für die Verwendung in nachfolgenden Textanalyse-Aktionen vorgesehen. |
| table | Gibt die Eingabe-CAS-Tabelle an, die die zu kompilierenden Konzeptregeln enthält. |
| config | Gibt den Namen der Spalte in der Eingabetabelle an, die die LITI-Regeldefinitionen (Language Interpretation for Textual Information) enthält. |
| ruleId | Gibt den Namen der Spalte in der Eingabetabelle an, die die eindeutige ID für jede Regel enthält. |
| enablePredefined | Wenn auf TRUE gesetzt, werden vordefinierte Entitäten (z. B. nlpDate, nlpMoney, nlpPerson) in das kompilierte Modell aufgenommen, was dessen Erkennungsfähigkeiten erweitert. |
| language | Gibt die Sprache der linguistischen Regeln und der vordefinierten Entitäten an. Standard ist 'ENGLISH'. |
| predefinedSentiment | Wenn auf TRUE gesetzt, wird das vordefinierte Sentiment-Modell für die angegebene Sprache erweitert, anstatt ein neues von Grund auf zu erstellen. |
| tokenizer | Gibt den zu verwendenden Tokenizer an. 'STANDARD' ist sprachspezifisch. 'BASIC' ist ein einfacherer Tokenizer, der für Chinesisch, Japanisch und Koreanisch nützlich sein kann, um die Regeltreffsicherheit zu verbessern. |
Dieser Schritt erstellt eine CAS-Tabelle 'myConceptRules', die die LITI-Regeln (Language Interpretation for Textual Information) enthält, die kompiliert werden sollen. Jede Zeile repräsentiert eine Regel mit einer ID und dem Regel-Code selbst.
| 1 | DATA mycas.myConceptRules; |
| 2 | LENGTH rule_id $ 50 rule_def $ 32767; |
| 3 | INFILE DATALINES delimiter='|'; |
| 4 | INPUT rule_id $ rule_def $; |
| 5 | DATALINES; |
| 6 | CONCEPT:my_product|CONCEPT_RULE:(OR,"productA","productB","widget") |
| 7 | ; |
| 8 | RUN; |
Dieses Beispiel kompiliert die in der Tabelle 'myConceptRules' definierten Regeln in ein binäres Modell. Das resultierende Modell wird in der Tabelle 'myConceptModel' in der 'casuser' Caslib gespeichert.
| 1 | |
| 2 | PROC CAS; |
| 3 | textRuleDevelop.compileConcept / TABLE={caslib="casuser", name="myConceptRules"} ruleId="rule_id" config="rule_def" casOut={caslib="casuser", name="myConceptModel", replace=true}; |
| 4 | |
| 5 | RUN; |
| 6 | |
| 7 | QUIT; |
| 8 |
Dieses Beispiel zeigt, wie man ein Konzeptmodell kompiliert, während man vordefinierte Entitäten für die deutsche Sprache aktiviert. Dies ermöglicht es dem Modell, Standardentitäten wie Daten, Orte oder Organisationen zu erkennen, zusätzlich zu den benutzerdefinierten Regeln.
| 1 | |
| 2 | PROC CAS; |
| 3 | textRuleDevelop.compileConcept / TABLE={caslib="casuser", name="myConceptRules"} ruleId="rule_id" config="rule_def" language="GERMAN" enablePredefined=true casOut={caslib="casuser", name="myGermanConceptModel", replace=true}; |
| 4 | |
| 5 | RUN; |
| 6 | |
| 7 | QUIT; |
| 8 |