searchAnalytics buildTermIndex

Cas Limite : Gestion des Caractères Spéciaux et Calcul de Fréquence

Scénario de test & Cas d'usage

Contexte Métier

Un outil de CRM analyse les feedbacks clients. Certains termes sont des acronymes complexes ou contiennent des caractères spéciaux (ex: 'C++', 'R&D', '@home'). On souhaite indexer ces termes tout en calculant leur fréquence d'apparition dans une colonne de commentaires associée.
À propos du Set : searchAnalytics

Indexation de données et fonctionnalités de recherche.

Découvrir toutes les actions de searchAnalytics
Préparation des Données

Création de données avec caractères spéciaux, doublons et calcul de fréquence sur un champ texte.

Copié !
1 
2DATA casuser.crm_feedback;
3LENGTH _term_ $20 raw_comment $100;
4INFILE DATALINES dsd;
5INPUT _term_ $ raw_comment $;
6DATALINES;
7"C++","Développeur C++ expert";
8"R&D","Service R&D innovant";
9"#hashtag","Usage du #hashtag abusif";
10" ","Commentaire vide";
11"Normal","Rien a signaler";
12 
13RUN;
14 

Étapes de réalisation

1
Tentative d'indexation avec comptage de fréquence sur le champ 'raw_comment'
Copié !
1 
2PROC CAS;
3searchAnalytics.buildTermIndex / TABLE={name='crm_feedback', caslib='casuser'} casOut={name='index_complex_terms', caslib='casuser', replace=true} fields={'raw_comment'} tokenize=false;
4 
5RUN;
6 

Résultat Attendu


L'action doit gérer les caractères spéciaux (comme '+' ou '&') sans erreur. Le champ vide doit être ignoré ou traité selon la politique par défaut. La table de sortie doit inclure des métriques de fréquence basées sur la colonne 'raw_comment'.