searchAnalytics buildAutoComplete

Robustesse face aux Données Sales et Caractères Spéciaux

Scénario de test & Cas d'usage

Contexte Métier

Analyse de commentaires clients (Feedbacks) bruts provenant des réseaux sociaux. Les données contiennent des emojis, des chaînes vides, des caractères spéciaux et des termes très courts. L'action ne doit pas planter face à ces irrégularités dans l'index source.
À propos du Set : searchAnalytics

Indexation de données et fonctionnalités de recherche.

Découvrir toutes les actions de searchAnalytics
Préparation des Données

Création d'un dataset 'sale' contenant des valeurs nulles, des caractères spéciaux et des chaînes vides, puis génération de l'index de termes.

Copié !
1DATA casuser.social_feedback;
2 LENGTH raw_text $50;
3 INPUT raw_text $ &;
4 DATALINES;
5Super produit!
6#bug #crash
7
8???
9@service_client
10.
11;
12RUN;
13 
14PROC CAS;
15 search.buildTermIndex /
16 TABLE={name='social_feedback', caslib='casuser'}
17 casOut={name='index_termes_dirty', caslib='casuser', replace=true};
18RUN;

Étapes de réalisation

1
Tentative de construction de l'autocomplétion sur un index potentiellement clairsemé ou contenant des termes atypiques.
Copié !
1PROC CAS;
2 searchAnalytics.buildAutoComplete /
3 index={name='index_termes_dirty', caslib='casuser'}
4 casOut={name='dirty_autocomplete', caslib='casuser', replace=true};
5RUN;
2
Vérification que l'action a filtré les entrées inutilisables sans provoquer d'erreur fatale.
Copié !
1PROC CAS;
2 SIMPLE.numRows /
3 TABLE={name='dirty_autocomplete', caslib='casuser'};
4RUN;

Résultat Attendu


L'action doit gérer gracieusement les entrées de l'index qui ne sont pas des mots valides (comme les lignes vides ou la ponctuation seule). Le code de retour doit être succès (0), même si la table résultante contient peu de suggestions pertinentes.