textRuleDevelop compileConcept

Traitement de Tickets Support en Japonais (Cas Limite Tokenizer)

Scénario de test & Cas d'usage

Contexte Métier

Le support technique d'une multinationale reçoit des tickets en Japonais. Les règles standards de découpage des mots (basées sur les espaces) ne fonctionnent pas. Le test vise à valider l'utilisation du tokenizer spécifique pour les langues CJK (Chinois, Japonais, Coréen).
Préparation des Données

Injection de règles comportant des caractères japonais pour détecter des pannes (ex: 'Panne réseau').

Copié !
1 
2DATA casuser.jp_rules;
3LENGTH rid $20 conf $200;
4INPUT rid $ conf $;
5CARDS;
6ERR_RESEAU CONCEPT:ネットワーク障害 ERR_LOGIN CONCEPT:ログインできない ;
7 
8RUN;
9 

Étapes de réalisation

1
Chargement des règles spécifiques CJK.
Copié !
1 
2PROC CAS;
3load
4DATA=casuser.jp_rules casout={name='jp_rules', replace=true};
5 
6RUN;
7 
2
Exécution avec Tokenizer BASIC imposé pour le Japonais.
Copié !
1 
2PROC CAS;
3textRuleDevelop.compileConcept / TABLE={name='jp_rules'} casOut={name='model_jp_support', replace=true} ruleId='rid' config='conf' language='JAPANESE' tokenizer='BASIC';
4 
5RUN;
6 

Résultat Attendu


La compilation s'exécute sans erreur. Le modèle 'model_jp_support' est généré en utilisant la segmentation de caractères (BASIC) au lieu de la segmentation par mots, ce qui est critique pour l'exactitude des correspondances en Japonais.