textRuleDevelop

compileCategory

Description

L'action `compileCategory` est utilisée pour construire un modèle de catégories (fichier MCO) à partir de règles de catégorisation définies par l'utilisateur. Ce modèle peut ensuite être utilisé pour classer des documents texte. L'action prend en entrée une table contenant les règles de catégorisation et produit en sortie une table CAS contenant le modèle binaire compilé.

proc cas; textRuleDevelop.compileCategory / table={name='ma_table_de_regles'} config='ma_colonne_de_config' casOut={name='mon_modele_mco', replace=true}; run;
Paramètres
ParamètreDescription
casOutSpécifie la table CAS de sortie qui contiendra le modèle de catégories compilé (MCO).
conceptSpécifie une table CAS d'entrée optionnelle contenant un binaire de modèle de concepts (LI) à utiliser lors de la compilation.
configSpécifie le nom de la variable dans la table d'entrée qui contient les règles de catégorie.
languageSpécifie la langue des binaires linguistiques à utiliser. La valeur par défaut est 'en' (anglais).
ruleIdSpécifie le nom de la variable dans la table d'entrée qui contient les identifiants des règles.
tableSpécifie la table CAS d'entrée contenant la configuration des règles de catégorie.
tokenizerSpécifie le tokeniseur à utiliser. 'STANDARD' (défaut) utilise un tokeniseur spécifique à la langue. 'BASIC' utilise un tokeniseur simple basé sur les espaces et la ponctuation, disponible pour le chinois, le japonais et le coréen.
Préparation des Données Voir la fiche de ce code dataprep
Création d'une table de règles de catégorie

Ce code crée une table CAS nommée 'data_rules' avec une seule colonne 'config'. Chaque ligne de cette colonne contient une règle de catégorisation. Ces règles seront utilisées pour compiler le modèle de catégories.

Copié !
1DATA casuser.data_rules;
2 LENGTH config $32767;
3 INFILE DATALINES delimiter='|';
4 INPUT config $;
5 DATALINES;
6categories:
7- name: category_1
8 rules:
9 - (SENT, "I like this a lot")
10- name: category_2
11 rules:
12 - (SENT, "I do not like this")
13;
14RUN;

Exemples

Cet exemple de base compile un modèle de catégories à partir des règles définies dans la table `data_rules` et enregistre le modèle binaire dans la table `category_model_mco`.

Code SAS® / CAS Code en attente de validation par la communauté
Copié !
1 
2PROC CAS;
3textRuleDevelop.compileCategory / TABLE={name='data_rules', caslib='casuser'} config='config' casOut={name='category_model_mco', caslib='casuser', replace=true};
4 
5RUN;
6 
Résultat :
Une table CAS nommée `category_model_mco` est créée dans la caslib `casuser`. Elle contient le modèle de catégorie binaire compilé. Un journal de confirmation indiquant la réussite de l'action s'affiche.

Cet exemple plus complexe compile un modèle de catégories en utilisant un modèle de concepts pré-existant (table `concept_model_li`) pour enrichir la logique de catégorisation. Il spécifie également l'utilisation du tokeniseur 'BASIC', ce qui est pertinent pour certaines langues asiatiques.

Code SAS® / CAS Code en attente de validation par la communauté
Copié !
1 
2PROC CAS;
3textRuleDevelop.compileCategory / TABLE={name='data_rules', caslib='casuser'} config='config' concept={name='concept_model_li', caslib='casuser'} language='ja' tokenizer='BASIC' casOut={name='category_model_mco_advanced', caslib='casuser', replace=true};
4 
5RUN;
6 
Résultat :
Une table CAS nommée `category_model_mco_advanced` est créée. Le modèle compilé intègre la logique du modèle de concepts `concept_model_li` et a été construit en utilisant le tokeniseur de base pour la langue japonaise.

FAQ

Quel est l'objectif de l'action compileCategory ?
Quels sont les paramètres obligatoires pour l'action compileCategory ?
Que spécifie le paramètre 'concept' ?
Comment le paramètre 'language' est-il utilisé ?
Quelle est la fonction du paramètre 'tokenizer' et quelles sont ses valeurs possibles ?