Verarbeitung asiatischer Sprachen mit Basic Tokenizer (Randfall/Spezial)

Geschäftskontext

Ein globaler Automobilhersteller analysiert Garantieansprüche aus dem japanischen Markt. Da die Tokenisierung (Worttrennung) in asiatischen Sprachen ohne Leerzeichen komplex ist, soll der 'BASIC'-Tokenizer getestet werden, um zu prüfen, ob er für einfache Schlüsselwort-Erkennungen robuster oder schneller ist als der Standard-Tokenizer.

Datenaufbereitung

Erstellung japanischer Regeln für Motorenteile (Engine, Brake).

Kopiert!

1
2	DATA casuser.japan_parts;
3	LENGTH id $20 definition $200;
4	INFILE DATALINES delimiter='\|';
5	INPUT id $ definition $;
6	DATALINES;
7	JP_ENG\|CONCEPT:ENGINE:(OR, "エンジン", "モーター");
8	JP_BRK\|CONCEPT:BRAKE:(OR, "ブレーキ", "制動機");
9
10	RUN;
11

Étapes de réalisation

Überprüfung der korrekten Kodierung der japanischen Zeichen in der Tabelle.

Kopiert!

1
2	PROC CAS;
3	TABLE.fetch / TABLE={name="japan_parts", caslib="casuser"} to=5;
4
5	RUN;
6

Kompilierung mit Sprache Japanisch und expliziter Wahl des BASIC-Tokenizers.

Kopiert!

1
2	PROC CAS;
3	textRuleDevelop.compileConcept / TABLE={name="japan_parts", caslib="casuser"} config="definition" ruleId="id" language="JAPANESE" tokenizer="BASIC" casOut={name="model_jdm_basic", caslib="casuser", replace=true};
4
5	RUN;
6

Erwartetes Ergebnis

Das Modell 'model_jdm_basic' wird erfolgreich erstellt. Der BASIC-Tokenizer wird angewendet, was im Protokoll vermerkt sein sollte. Dies stellt sicher, dass die Regeln auch ohne komplexe morphologische Analyse auf japanischen Texten greifen.

Voir la documentation technique de compileConcept