brTrain - WeAreCAS

Q: Quels sont les paramètres requis pour l'action `brTrain` ?

Les paramètres requis pour l'action `brTrain` sont `docId` (spécifie la variable contenant l'ID du document), `table` (spécifie la table de données d'entrée pour l'extraction des règles), et `termId` (spécifie la variable contenant l'ID du terme).

Q: Que spécifie le paramètre `docInfo` ?

Le paramètre `docInfo` spécifie les informations concernant la table de documents, y compris les événements, l'ID du document, la table elle-même, les cibles et le type de cible (BINARY, MULTICLASS, ou MULTILABEL).

Q: Que spécifie le paramètre `termInfo` ?

Le paramètre `termInfo` spécifie les informations concernant la table des termes, y compris l'ID du terme, l'étiquette (le texte du terme) et la table contenant ces informations.

Q: Quelles sont les tables de sortie générées par l'action `brTrain` ?

L'action `brTrain` peut générer trois tables de sortie via le paramètre `casOuts` : `candidateTerms` (termes sélectionnés pour la création de règles), `rules` (règles générées pour chaque catégorie), et `ruleTerms` (termes contenus dans chaque règle générée).

Q: Quel est le rôle du paramètre `gPositive` ?

Le paramètre `gPositive` spécifie le score g minimum requis pour qu'un terme positif soit pris en compte pour l'extraction de règles. La valeur par défaut est 8.

Q: Quel est le rôle du paramètre `gNegative` ?

Le paramètre `gNegative` spécifie le score g minimum requis pour qu'un terme négatif soit pris en compte pour l'extraction de règles. La valeur par défaut est 8.

Q: Que fait le paramètre `maxCandidates` ?

Le paramètre `maxCandidates` spécifie le nombre de termes candidats à sélectionner pour chaque catégorie. La valeur par défaut est 500.

Q: À quoi servent les paramètres `maxTriesIn` et `maxTriesOut` ?

`maxTriesIn` spécifie la valeur k-in pour la recherche k-best dans le processus d'ensemble de termes pour créer des règles. `maxTriesOut` spécifie la valeur k-out pour la recherche k-best dans le processus d'ensemble de règles pour créer un jeu de règles.

Q: Que signifie le paramètre `minSupports` ?

Le paramètre `minSupports` spécifie le nombre minimum de documents dans lesquels un terme doit apparaître pour être utilisé dans la création d'une règle. La valeur par défaut est 3.

Description

L'action `brTrain` est utilisée pour extraire des règles booléennes à partir de données textuelles. Elle fait partie de l'ensemble d'actions `boolRule` et est conçue pour identifier des combinaisons de termes qui sont prédictives de certaines catégories ou cibles dans un corpus de documents.

boolRule.brTrain { casOuts={...}, docId="variable-name", docInfo={...}, gNegative=double, gPositive=double, maxCandidates=integer, maxTriesIn=integer, maxTriesOut=integer, minSupports=integer, mNegative=integer, mPositive=integer, nThreads=integer, table={...}, termId="variable-name", termInfo={...}, useOldNames=TRUE | FALSE };

Paramètres

Paramètre	Description
casOuts	Spécifie les tables de données qui contiennent les résultats générés par l'action.
docId	Spécifie la variable dans la table d'entrée qui contient l'ID du document.
docInfo	Spécifie les informations sur la table de documents.
gNegative	Spécifie le score g minimum nécessaire pour qu'un terme négatif soit considéré pour l'extraction de règles.
gPositive	Spécifie le score g minimum nécessaire pour un terme positif.
maxCandidates	Spécifie le nombre de termes candidats à sélectionner pour chaque catégorie.
maxTriesIn	Spécifie la valeur k-in pour la recherche des k-meilleurs dans le processus d'ensemble de termes pour la création de règles.
maxTriesOut	Spécifie la valeur k-out pour la recherche des k-meilleurs dans le processus d'ensemble de règles pour la création d'un jeu de règles.
minSupports	Spécifie le nombre minimum de documents dans lesquels un terme doit apparaître pour être utilisé dans la création d'une règle.
mNegative	Spécifie la valeur m pour le calcul de la précision estimée pour les termes négatifs.
mPositive	Spécifie la valeur m pour le calcul de la précision estimée pour les termes positifs.
nThreads	Spécifie le nombre de threads à utiliser par nœud.
table	Spécifie la table de données d'entrée pour l'extraction de règles.
termId	Spécifie la variable dans la table d'entrée qui contient l'ID du terme.
termInfo	Spécifie les informations sur la table des termes.
useOldNames	Spécifie s'il faut utiliser les anciens noms de variables utilisés dans HPBOOLRULE.

Préparation des Données Voir la fiche de ce code dataprep

Création des données de démonstration

Ce code crée deux tables CAS : `documents` qui contient les informations sur les documents et leurs catégories, et `terms_in_docs` qui mappe les termes aux documents. Ces tables sont nécessaires pour exécuter l'action `brTrain`.

Copié !

1	PROC CAS;
2	DATA casuser.documents;
3	INFILE DATALINES delimiter=',';
4	INPUT doc_id varchar(10) category varchar(20);
5	DATALINES;
6	doc1,cat1
7	doc2,cat1
8	doc3,cat2
9	doc4,cat2
10	doc5,cat1
11	;
12	RUN;
13
14	DATA casuser.terms_in_docs;
15	INFILE DATALINES delimiter=',';
16	INPUT doc_id varchar(10) term_id varchar(10);
17	DATALINES;
18	doc1,term1
19	doc1,term2
20	doc2,term1
21	doc2,term3
22	doc3,term2
23	doc3,term4
24	doc4,term4
25	doc4,term5
26	doc5,term1
27	doc5,term5
28	;
29	RUN;
30	QUIT;

Exemples

Cet exemple montre comment extraire des règles booléennes en utilisant les paramètres minimaux requis. Il utilise la table `terms_in_docs` comme entrée principale et la table `documents` pour obtenir les informations sur les cibles.

Code SAS® / CAS Code en attente de validation par la communauté

Copié !

1	PROC CAS;
2	ACTION boolRule.brTrain /
3	TABLE={name='terms_in_docs'},
4	docId='doc_id',
5	termId='term_id',
6	docInfo={
7	TABLE={name='documents'},
8	id='doc_id',
9	targets={'category'}
10	},
11	casOut={name='rules_output', replace=true};
12	RUN;
13	QUIT;

Résultat :
Une table CAS nommée `rules_output` est créée dans la caslib `casuser`. Elle contient les règles booléennes extraites, avec des informations telles que l'ID de la règle, la catégorie, la précision et le rappel.

Cet exemple plus détaillé ajuste plusieurs paramètres pour affiner le processus d'extraction de règles. Il définit des seuils pour les scores g (`gPositive`, `gNegative`), le support minimum des termes (`minSupports`), et contrôle le processus de recherche avec `maxCandidates`, `maxTriesIn` et `maxTriesOut`. Les résultats, incluant les règles, les termes des règles et les termes candidats, sont sauvegardés dans des tables de sortie distinctes.

Code SAS® / CAS Code en attente de validation par la communauté

Copié !

1	PROC CAS;
2	ACTION boolRule.brTrain /
3	TABLE={name='terms_in_docs'},
4	docId='doc_id',
5	termId='term_id',
6	docInfo={
7	TABLE={name='documents'},
8	id='doc_id',
9	targets={'category'},
10	targetType='MULTICLASS'
11	},
12	gPositive=5,
13	gNegative=5,
14	minSupports=1,
15	maxCandidates=100,
16	maxTriesIn=50,
17	maxTriesOut=20,
18	casOut={
19	rules={name='detailed_rules', replace=true},
20	ruleTerms={name='detailed_rule_terms', replace=true},
21	candidateTerms={name='candidate_terms', replace=true}
22	};
23	RUN;
24	QUIT;

Résultat :
Trois tables CAS sont créées : `detailed_rules` (contenant les règles générées), `detailed_rule_terms` (mappant les termes à chaque règle), et `candidate_terms` (listant les termes considérés pour l'extraction). Ces tables fournissent une vue complète du processus et des résultats de l'entraînement.

FAQ

À quoi sert l'action `brTrain` ?

Quels sont les paramètres requis pour l'action `brTrain` ?

Que spécifie le paramètre `docInfo` ?

Que spécifie le paramètre `termInfo` ?

Quelles sont les tables de sortie générées par l'action `brTrain` ?

Quel est le rôle du paramètre `gPositive` ?

Quel est le rôle du paramètre `gNegative` ?

Que fait le paramètre `maxCandidates` ?

À quoi servent les paramètres `maxTriesIn` et `maxTriesOut` ?

Que signifie le paramètre `minSupports` ?

Scénarios associés

Cas d'usage

Classification de rapports médicaux par symptômes

Un hôpital souhaite automatiser la pré-classification des dossiers patients en fonction des symptômes notés dans les rapports textuels pour diriger les patients vers le bon serv...

Voir le scénario

Cas d'usage

Détection de Spam avec optimisation des candidats

Une entreprise de cybersécurité analyse des milliers d'emails. Le volume de mots est énorme, il faut donc limiter le bruit en filtrant agressivement les termes candidats et en i...

Voir le scénario

Cas d'usage

Analyse de tickets support avec extraction de règles négatives

Le service client veut comprendre ce qui *n'est pas* un problème urgent. L'analyse se concentre sur l'extraction de règles négatives et l'ajustement de la recherche heuristique.

Voir le scénario

Actions associées

boolRule

brScore

L'action `brScore` du jeu d'actions `boolRule` est utilisée pour évaluer des ...

Sommaire

Description

Création des données de démonstration

Exemples

Extraction de règles de base

Extraction de règles avec des paramètres avancés

FAQ

Scénarios associés

Cas d'usage

Classification de rapports médicaux par symptômes

Cas d'usage

Détection de Spam avec optimisation des candidats

Cas d'usage

Analyse de tickets support avec extraction de règles négatives

Actions associées

brScore