textRuleDevelop compileCategory

Performance-Test mit hohem Regelvolumen und spezifischem Tokenizer

Scénario de test & Cas d'usage

Geschäftskontext

Ein globaler E-Commerce-Riese analysiert tausende von Produktbewertungen auf dem japanischen Markt. Um die Nuancen der japanischen Sprache zu erfassen, muss ein komplexes Modell mit Tausenden von generierten Regeln unter Verwendung des 'BASIC'-Tokenizers erstellt werden, um die Worttrennung korrekt zu handhaben.
Datenaufbereitung

Generierung von 5.000 simulierten Regeln für japanische Produktkategorien.

Kopiert!
1 
2DATA mycas.japan_rules;
3LENGTH rule_id $ 20 config $ 100;
4DO i=1 to 5000;
5rule_id = cats('JP_CAT_', i);
6config = cats('CLASSIFIER:商品_', i);
7OUTPUT;
8END;
9 
10RUN;
11 

Étapes de réalisation

1
Kompilierung des Modells mit Sprachspezifikation Japanisch und BASIC Tokenizer.
Kopiert!
1 
2PROC CAS;
3textRuleDevelop.compileCategory / TABLE={name='japan_rules'} casOut={name='japan_mco_model', replace=true} ruleId='rule_id' config='config' language='ja' tokenizer='BASIC';
4 
5RUN;
6 

Erwartetes Ergebnis


Das Modell 'mycas.japan_mco_model' wird trotz des hohen Volumens erfolgreich erstellt. Das Log zeigt explizit die Verwendung der Sprache 'ja' und des Tokenizers 'BASIC' an, was für die korrekte Verarbeitung asiatischer Schriftzeichen essenziell ist.