textRuleDevelop

compileCategory

Beschreibung

Erstellt ein Kategoriemodell. Diese Aktion kompiliert kategoriale Regeln in ein binäres Modell (MCO-Datei), das von der Aktion `category.applyCategory` verwendet werden kann. Sie verwendet eine Konfigurationstabelle, die die Regeln definiert, und kann optional ein Konzeptmodell (LI-Binärdatei) zur Unterstützung des Kompilierungsprozesses einbeziehen.

textRuleDevelop.compileCategory / casOut={...} config="string" table={...} <concept={...}> <language="string"> <ruleId="string"> <tokenizer="BASIC" | "STANDARD">;
Einstellungen
ParameterBeschreibung
casOutGibt die CAS-Ausgabetabelle an, die das Kategoriemodell (MCO) enthält.
conceptGibt eine CAS-Eingabetabelle an, die die LI-Binärdatei enthält. Die LI-Binärdatei ist optional und kann zum Kompilieren des Kategoriemodells (MCO) verwendet werden.
configGibt den Variablennamen der Eingabetabelle an, die die Konfiguration enthält.
languageGibt die Sprache an, die beim Festlegen der linguistischen Binärdateien verwendet wird. Der Standardwert ist 'en'. Wenn der Wert ungültig ist, wird eine Fehlermeldung angezeigt.
ruleIdGibt den Variablennamen der CAS-Tabelle an, der die Regel-IDs enthält.
tableGibt den Namen der CAS-Tabelle an, die die Konfiguration enthält.
tokenizerGibt an, welcher Tokenizer im Kategoriemodell verwendet werden soll. Wenn der Tokenizer-Parameter auf den Standardwert 'STANDARD' gesetzt ist, wird ein sprachspezifischer Tokenizer angewendet. Alle lizenzierten Sprachen unterstützen den Standardwert 'STANDARD'. Wenn der Tokenizer-Parameter auf den Wert 'BASIC' gesetzt ist, wird ein einfacher Tokenizer angewendet. Der einfache Tokenizer trennt Wörter nach Leerzeichen, Satzzeichen und chinesischen, japanischen, koreanischen und thailändischen Zeichen. Der Wert 'BASIC' des Tokenizer-Parameters ist nur verfügbar, wenn der Sprachparameter auf Chinesisch, Japanisch oder Koreanisch eingestellt ist. Diese Methode kann die Anforderungen der Analyse spezifischer Texte besser erfüllen und die Regelübereinstimmung für diese Sprachen verbessern.
Erstellung der Eingabedaten

Dieser Schritt erstellt die Tabelle `category_rules_table`, die die Regeln für die Kategorisierung enthält. Jede Zeile definiert eine Regel für eine Kategorie.

Kopiert!
1DATA mycas.category_rules_table; LENGTH rule_id $ 20 config $ 32767; INFILE DATALINES delimiter='|'; INPUT rule_id $ config $; DATALINES;
2CAT_A|CLASSIFIER:cat_a_term1
3CAT_A|CLASSIFIER:cat_a_term2
4CAT_B|CONCEPT_RULE:(OR, (AND, "cat_b_term1", "cat_b_term2"), (AND, "cat_b_term3", (NOT, "excluded_term")))
5;
6RUN;

Beispiele

Dieses Beispiel zeigt, wie man ein Kategoriemodell aus einer Regeltabelle kompiliert. Das resultierende Modell wird in der Tabelle `mycas.mco_model` gespeichert.

SAS® / CAS-Code Code wartet auf Validierung durch die Community
Kopiert!
1 
2PROC CAS;
3textRuleDevelop.compileCategory / TABLE={name='category_rules_table'} casOut={name='mco_model', replace=true} ruleId='rule_id' config='config';
4 
5RUN;
6 
Ergebnis :
Die Aktion erstellt eine binäre Ausgabetabelle `mycas.mco_model`, die das kompilierte Kategoriemodell enthält. Es werden auch Notizen im SAS-Log angezeigt, die den Erfolg des Kompilierungsprozesses bestätigen.

Dieses Beispiel kompiliert ein Kategoriemodell unter Verwendung eines vordefinierten Konzeptmodells (`mycas.li_model`) und gibt die Sprache als Japanisch an. Es verwendet den 'BASIC'-Tokenizer für eine spezifische Textverarbeitung.

SAS® / CAS-Code Code wartet auf Validierung durch die Community
Kopiert!
1 
2PROC CAS;
3textRuleDevelop.compileCategory / TABLE={name='category_rules_table'} concept={name='li_model'} casOut={name='mco_model_jp', replace=true} ruleId='rule_id' config='config' language='ja' tokenizer='BASIC';
4 
5RUN;
6 
Ergebnis :
Die Aktion erstellt eine binäre Ausgabetabelle `mycas.mco_model_jp`. Das Log zeigt an, dass die japanische Sprache und der 'BASIC'-Tokenizer verwendet wurden, um das Modell zu kompilieren, was zu einem für japanischen Text optimierten Modell führt.

FAQ

Was ist der Zweck der Aktion 'compileCategory'?
Welchen Zweck hat der Parameter 'casOut'?
Welchen Zweck hat der Parameter 'concept'?
Welchen Zweck hat der Parameter 'config'?
Welchen Zweck hat der Parameter 'language'?
Welchen Zweck hat der Parameter 'ruleId'?
Welchen Zweck hat der Parameter 'table'?
Welchen Zweck hat der Parameter 'tokenizer'?