textRuleDevelop compileCategory

Support International Japonais avec Tokenizer Spécifique (Cas Limite)

Scénario de test & Cas d'usage

Contexte Métier

Une firme multinationale analyse les retours clients sur le marché asiatique. Ils doivent créer un modèle de classification pour des textes en Japonais. Le tokeniseur standard ne segmentant pas correctement cette langue pour leur besoin spécifique, ils forcent l'utilisation du tokeniseur 'BASIC' et spécifient la langue 'ja'.
Préparation des Données

Création de règles contenant des caractères japonais et de la configuration nécessaire.

Copié !
1DATA casuser.rules_japan; LENGTH config $300; INFILE DATALINES delimiter='|'; INPUT config $; DATALINES;
2categories:
3- name: Satisfaction
4 rules:
5 - (SENT, "私はこれが好きです")
6- name: Plainte
7 rules:
8 - (SENT, "それは機能しません")
9;
10RUN;

Étapes de réalisation

1
Tentative de compilation avec configuration spécifique (Langue Japonaise + Tokenizer BASIC).
Copié !
1 
2PROC CAS;
3textRuleDevelop.compileCategory / TABLE={name='rules_japan', caslib='casuser'} config='config' language='ja' tokenizer='BASIC' casOut={name='modele_japan_mco', caslib='casuser', replace=true};
4 
5RUN;
6 
2
Test de robustesse : Tentative avec une langue invalide pour vérifier la gestion d'erreur.
Copié !
1 
2PROC CAS;
3textRuleDevelop.compileCategory / TABLE={name='rules_japan', caslib='casuser'} config='config' language='XX' casOut={name='modele_error', replace=true};
4 
5RUN;
6 

Résultat Attendu


L'étape 1 doit réussir et produire 'modele_japan_mco' en utilisant le tokeniseur BASIC adapté aux caractères japonais. L'étape 2 doit échouer proprement avec un message d'erreur explicite indiquant que la langue 'XX' n'est pas supportée, validant ainsi la robustesse des contrôles d'entrée.