textRuleDevelop

compileConcept

Beschreibung

Diese Aktion erstellt ein Konzeptmodell (auch als LITI-Modell bekannt) unter Verwendung von linguistischen Regeln, die in einer Konfigurationstabelle definiert sind. Es kompiliert diese Regeln in ein binäres Modell, das in einer CAS-Ausgabetabelle gespeichert wird. Dieses binäre Modell ist für die Verwendung in anderen Textanalyse-Aktionen wie `textParse.tpParse` und `textMining.tmMine` optimiert, um Konzepte, Entitäten und Fakten aus Textdaten effizient zu extrahieren. Die Aktion kann auch vordefinierte SAS-Entitäten (wie Daten, Orte, Namen) einbeziehen und vordefinierte Sentiment-Modelle erweitern, was die Leistungsfähigkeit der Textanalyse erheblich steigert.

proc cas; textRuleDevelop.compileConcept / casOut={...} table={name="..."} config="..." ruleId="..." <enablePredefined=FALSE|TRUE> <language="language"> <predefinedSentiment=FALSE|TRUE> <tokenizer="STANDARD"|"BASIC">; run;
Einstellungen
ParameterBeschreibung
casOutGibt die Ausgabe-CAS-Tabelle an, die das binäre Konzeptmodell enthält. Diese Tabelle ist für die Verwendung in nachfolgenden Textanalyse-Aktionen vorgesehen.
tableGibt die Eingabe-CAS-Tabelle an, die die zu kompilierenden Konzeptregeln enthält.
configGibt den Namen der Spalte in der Eingabetabelle an, die die LITI-Regeldefinitionen (Language Interpretation for Textual Information) enthält.
ruleIdGibt den Namen der Spalte in der Eingabetabelle an, die die eindeutige ID für jede Regel enthält.
enablePredefinedWenn auf TRUE gesetzt, werden vordefinierte Entitäten (z. B. nlpDate, nlpMoney, nlpPerson) in das kompilierte Modell aufgenommen, was dessen Erkennungsfähigkeiten erweitert.
languageGibt die Sprache der linguistischen Regeln und der vordefinierten Entitäten an. Standard ist 'ENGLISH'.
predefinedSentimentWenn auf TRUE gesetzt, wird das vordefinierte Sentiment-Modell für die angegebene Sprache erweitert, anstatt ein neues von Grund auf zu erstellen.
tokenizerGibt den zu verwendenden Tokenizer an. 'STANDARD' ist sprachspezifisch. 'BASIC' ist ein einfacherer Tokenizer, der für Chinesisch, Japanisch und Koreanisch nützlich sein kann, um die Regeltreffsicherheit zu verbessern.
Erstellung der Eingabedaten für die Konzeptregeln

Dieser Schritt erstellt eine CAS-Tabelle 'myConceptRules', die die LITI-Regeln (Language Interpretation for Textual Information) enthält, die kompiliert werden sollen. Jede Zeile repräsentiert eine Regel mit einer ID und dem Regel-Code selbst.

Kopiert!
1DATA mycas.myConceptRules;
2 LENGTH rule_id $ 50 rule_def $ 32767;
3 INFILE DATALINES delimiter='|';
4 INPUT rule_id $ rule_def $;
5 DATALINES;
6CONCEPT:my_product|CONCEPT_RULE:(OR,"productA","productB","widget")
7;
8RUN;

Beispiele

Dieses Beispiel kompiliert die in der Tabelle 'myConceptRules' definierten Regeln in ein binäres Modell. Das resultierende Modell wird in der Tabelle 'myConceptModel' in der 'casuser' Caslib gespeichert.

SAS® / CAS-Code Code wartet auf Validierung durch die Community
Kopiert!
1 
2PROC CAS;
3textRuleDevelop.compileConcept / TABLE={caslib="casuser", name="myConceptRules"} ruleId="rule_id" config="rule_def" casOut={caslib="casuser", name="myConceptModel", replace=true};
4 
5RUN;
6 
7QUIT;
8 
Ergebnis :
Die Aktion erstellt eine Ausgabetabelle 'myConceptModel' in der 'casuser' Caslib. Diese Tabelle enthält das kompilierte binäre Modell und ist bereit, von anderen Textanalyse-Aktionen wie 'tpParse' oder 'tmMine' verwendet zu werden. Das Protokoll zeigt eine Erfolgsmeldung an.

Dieses Beispiel zeigt, wie man ein Konzeptmodell kompiliert, während man vordefinierte Entitäten für die deutsche Sprache aktiviert. Dies ermöglicht es dem Modell, Standardentitäten wie Daten, Orte oder Organisationen zu erkennen, zusätzlich zu den benutzerdefinierten Regeln.

SAS® / CAS-Code Code wartet auf Validierung durch die Community
Kopiert!
1 
2PROC CAS;
3textRuleDevelop.compileConcept / TABLE={caslib="casuser", name="myConceptRules"} ruleId="rule_id" config="rule_def" language="GERMAN" enablePredefined=true casOut={caslib="casuser", name="myGermanConceptModel", replace=true};
4 
5RUN;
6 
7QUIT;
8 
Ergebnis :
Es wird eine neue binäre Modelltabelle 'myGermanConceptModel' erstellt. Dieses Modell wird nicht nur die in 'myConceptRules' definierten Regeln anwenden, sondern auch die vordefinierten deutschen Entitäten von SAS erkennen, wenn es zur Analyse von Text verwendet wird. Das Protokoll bestätigt die erfolgreiche Kompilierung.

FAQ

Was ist der Zweck der Aktion `compileConcept`?
Welchen Zweck hat der Parameter `casOut`?
Was gibt der Parameter `config` an?
Was bewirkt der Parameter `enablePredefined`?
Welche Funktion hat der Parameter `language`?
Was steuert der Parameter `predefinedSentiment`?
Wie wird der Parameter `tokenizer` verwendet?