textRuleDevelop compileConcept

Verarbeitung asiatischer Sprachen mit Basic Tokenizer (Randfall/Spezial)

Scénario de test & Cas d'usage

Geschäftskontext

Ein globaler Automobilhersteller analysiert Garantieansprüche aus dem japanischen Markt. Da die Tokenisierung (Worttrennung) in asiatischen Sprachen ohne Leerzeichen komplex ist, soll der 'BASIC'-Tokenizer getestet werden, um zu prüfen, ob er für einfache Schlüsselwort-Erkennungen robuster oder schneller ist als der Standard-Tokenizer.
Datenaufbereitung

Erstellung japanischer Regeln für Motorenteile (Engine, Brake).

Kopiert!
1 
2DATA casuser.japan_parts;
3LENGTH id $20 definition $200;
4INFILE DATALINES delimiter='|';
5INPUT id $ definition $;
6DATALINES;
7JP_ENG|CONCEPT:ENGINE:(OR, "エンジン", "モーター");
8JP_BRK|CONCEPT:BRAKE:(OR, "ブレーキ", "制動機");
9 
10RUN;
11 

Étapes de réalisation

1
Überprüfung der korrekten Kodierung der japanischen Zeichen in der Tabelle.
Kopiert!
1 
2PROC CAS;
3TABLE.fetch / TABLE={name="japan_parts", caslib="casuser"} to=5;
4 
5RUN;
6 
2
Kompilierung mit Sprache Japanisch und expliziter Wahl des BASIC-Tokenizers.
Kopiert!
1 
2PROC CAS;
3textRuleDevelop.compileConcept / TABLE={name="japan_parts", caslib="casuser"} config="definition" ruleId="id" language="JAPANESE" tokenizer="BASIC" casOut={name="model_jdm_basic", caslib="casuser", replace=true};
4 
5RUN;
6 

Erwartetes Ergebnis


Das Modell 'model_jdm_basic' wird erfolgreich erstellt. Der BASIC-Tokenizer wird angewendet, was im Protokoll vermerkt sein sollte. Dies stellt sicher, dass die Regeln auch ohne komplexe morphologische Analyse auf japanischen Texten greifen.