Support International Japonais avec Tokenizer Spécifique (Cas Limite)

Contexte Métier

Une firme multinationale analyse les retours clients sur le marché asiatique. Ils doivent créer un modèle de classification pour des textes en Japonais. Le tokeniseur standard ne segmentant pas correctement cette langue pour leur besoin spécifique, ils forcent l'utilisation du tokeniseur 'BASIC' et spécifient la langue 'ja'.

Préparation des Données

Création de règles contenant des caractères japonais et de la configuration nécessaire.

Copié !

1	DATA casuser.rules_japan; LENGTH config $300; INFILE DATALINES delimiter='\|'; INPUT config $; DATALINES;
2	categories:
3	- name: Satisfaction
4	rules:
5	- (SENT, "私はこれが好きです")
6	- name: Plainte
7	rules:
8	- (SENT, "それは機能しません")
9	;
10	RUN;

Étapes de réalisation

Tentative de compilation avec configuration spécifique (Langue Japonaise + Tokenizer BASIC).

Copié !

1
2	PROC CAS;
3	textRuleDevelop.compileCategory / TABLE={name='rules_japan', caslib='casuser'} config='config' language='ja' tokenizer='BASIC' casOut={name='modele_japan_mco', caslib='casuser', replace=true};
4
5	RUN;
6

Test de robustesse : Tentative avec une langue invalide pour vérifier la gestion d'erreur.

Copié !

1
2	PROC CAS;
3	textRuleDevelop.compileCategory / TABLE={name='rules_japan', caslib='casuser'} config='config' language='XX' casOut={name='modele_error', replace=true};
4
5	RUN;
6

Résultat Attendu

L'étape 1 doit réussir et produire 'modele_japan_mco' en utilisant le tokeniseur BASIC adapté aux caractères japonais. L'étape 2 doit échouer proprement avec un message d'erreur explicite indiquant que la langue 'XX' n'est pas supportée, validant ainsi la robustesse des contrôles d'entrée.

Voir la documentation technique de compileCategory