Détection de Spam avec optimisation des candidats

Contexte Métier

Une entreprise de cybersécurité analyse des milliers d'emails. Le volume de mots est énorme, il faut donc limiter le bruit en filtrant agressivement les termes candidats et en imposant un support minimum.

À propos du Set : boolRule

Extraction de règles booléennes pour la classification.

Découvrir toutes les actions de boolRule

Préparation des Données

Simulation d'un corpus d'emails (Spam/Ham) avec des termes récurrents (bruit) et spécifiques.

Copié !

1
2	DATA casuser.emails;
3	LENGTH eid $10 type $10;
4	INPUT eid type;
5	DATALINES;
6	E1 Spam E2 Ham E3 Spam E4 Spam E5 Ham E6 Ham E7 Spam E8 Spam ;
7
8	RUN;
9
10	DATA casuser.email_terms;
11	LENGTH eid $10 word $20;
12	INPUT eid word;
13	DATALINES;
14	E1 gratuit E1 offre E2 reunion E2 projet E3 gratuit E3 argent E4 offre E4 urgent E5 projet E5 rapport E6 reunion E6 date E7 urgent E7 argent E8 gratuit E8 offre ;
15
16	RUN;
17

Étapes de réalisation

Entraînement avec seuils de filtrage élevés

Copié !

1
2	PROC CAS;
3	boolRule.brTrain / TABLE={name='email_terms'} docId='eid' termId='word' docInfo={ TABLE={name='emails'}, id='eid', targets={'type'} } maxCandidates=50 minSupports=2 gPositive=2 casOut={candidateTerms={name='candidats_spam', replace=true}};
4
5	RUN;
6
7	QUIT;
8

Résultat Attendu

Seuls les termes apparaissant au moins 2 fois (ex: 'gratuit', 'offre') sont considérés. La table 'candidats_spam' montre une liste réduite de termes pertinents, ignorant les mots uniques ou peu fréquents.

Voir la documentation technique de brTrain