boolRule brTrain

Détection de Spam avec optimisation des candidats

Scénario de test & Cas d'usage

Contexte Métier

Une entreprise de cybersécurité analyse des milliers d'emails. Le volume de mots est énorme, il faut donc limiter le bruit en filtrant agressivement les termes candidats et en imposant un support minimum.
À propos du Set : boolRule

Extraction de règles booléennes pour la classification.

Découvrir toutes les actions de boolRule
Préparation des Données

Simulation d'un corpus d'emails (Spam/Ham) avec des termes récurrents (bruit) et spécifiques.

Copié !
1 
2DATA casuser.emails;
3LENGTH eid $10 type $10;
4INPUT eid type;
5DATALINES;
6E1 Spam E2 Ham E3 Spam E4 Spam E5 Ham E6 Ham E7 Spam E8 Spam ;
7 
8RUN;
9 
10DATA casuser.email_terms;
11LENGTH eid $10 word $20;
12INPUT eid word;
13DATALINES;
14E1 gratuit E1 offre E2 reunion E2 projet E3 gratuit E3 argent E4 offre E4 urgent E5 projet E5 rapport E6 reunion E6 date E7 urgent E7 argent E8 gratuit E8 offre ;
15 
16RUN;
17 

Étapes de réalisation

1
Entraînement avec seuils de filtrage élevés
Copié !
1 
2PROC CAS;
3boolRule.brTrain / TABLE={name='email_terms'} docId='eid' termId='word' docInfo={ TABLE={name='emails'}, id='eid', targets={'type'} } maxCandidates=50 minSupports=2 gPositive=2 casOut={candidateTerms={name='candidats_spam', replace=true}};
4 
5RUN;
6 
7QUIT;
8 

Résultat Attendu


Seuls les termes apparaissant au moins 2 fois (ex: 'gratuit', 'offre') sont considérés. La table 'candidats_spam' montre une liste réduite de termes pertinents, ignorant les mots uniques ou peu fréquents.