Performance-Test mit hohem Regelvolumen und spezifischem Tokenizer

Geschäftskontext

Ein globaler E-Commerce-Riese analysiert tausende von Produktbewertungen auf dem japanischen Markt. Um die Nuancen der japanischen Sprache zu erfassen, muss ein komplexes Modell mit Tausenden von generierten Regeln unter Verwendung des 'BASIC'-Tokenizers erstellt werden, um die Worttrennung korrekt zu handhaben.

Datenaufbereitung

Generierung von 5.000 simulierten Regeln für japanische Produktkategorien.

Kopiert!

1
2	DATA mycas.japan_rules;
3	LENGTH rule_id $ 20 config $ 100;
4	DO i=1 to 5000;
5	rule_id = cats('JP_CAT_', i);
6	config = cats('CLASSIFIER:商品_', i);
7	OUTPUT;
8	END;
9
10	RUN;
11

Étapes de réalisation

Kompilierung des Modells mit Sprachspezifikation Japanisch und BASIC Tokenizer.

Kopiert!

1
2	PROC CAS;
3	textRuleDevelop.compileCategory / TABLE={name='japan_rules'} casOut={name='japan_mco_model', replace=true} ruleId='rule_id' config='config' language='ja' tokenizer='BASIC';
4
5	RUN;
6

Erwartetes Ergebnis

Das Modell 'mycas.japan_mco_model' wird trotz des hohen Volumens erfolgreich erstellt. Das Log zeigt explizit die Verwendung der Sprache 'ja' und des Tokenizers 'BASIC' an, was für die korrekte Verarbeitung asiatischer Schriftzeichen essenziell ist.

Voir la documentation technique de compileCategory