Traitement de Tickets Support en Japonais (Cas Limite Tokenizer)

Contexte Métier

Le support technique d'une multinationale reçoit des tickets en Japonais. Les règles standards de découpage des mots (basées sur les espaces) ne fonctionnent pas. Le test vise à valider l'utilisation du tokenizer spécifique pour les langues CJK (Chinois, Japonais, Coréen).

Préparation des Données

Injection de règles comportant des caractères japonais pour détecter des pannes (ex: 'Panne réseau').

Copié !

1
2	DATA casuser.jp_rules;
3	LENGTH rid $20 conf $200;
4	INPUT rid $ conf $;
5	CARDS;
6	ERR_RESEAU CONCEPT:ネットワーク障害 ERR_LOGIN CONCEPT:ログインできない ;
7
8	RUN;
9

Étapes de réalisation

Chargement des règles spécifiques CJK.

Copié !

1
2	PROC CAS;
3	load
4	DATA=casuser.jp_rules casout={name='jp_rules', replace=true};
5
6	RUN;
7

Exécution avec Tokenizer BASIC imposé pour le Japonais.

Copié !

1
2	PROC CAS;
3	textRuleDevelop.compileConcept / TABLE={name='jp_rules'} casOut={name='model_jp_support', replace=true} ruleId='rid' config='conf' language='JAPANESE' tokenizer='BASIC';
4
5	RUN;
6

Résultat Attendu

La compilation s'exécute sans erreur. Le modèle 'model_jp_support' est généré en utilisant la segmentation de caractères (BASIC) au lieu de la segmentation par mots, ce qui est critique pour l'exactitude des correspondances en Japonais.

Voir la documentation technique de compileConcept