searchAnalytics buildAutoComplete

Robustheitstest mit Sonderzeichen und fehlenden Werten

Scénario de test & Cas d'usage

Geschäftskontext

Ein Kundensupport-System analysiert benutzerdefinierte Tags aus Tickets. Diese Daten sind oft 'schmutzig', enthalten Sonderzeichen, NULL-Werte oder extrem lange Strings. Der Test soll sicherstellen, dass die Aktion nicht abstürzt und robuste Indizes auch aus unvollkommenen Daten erstellt.
Über das Set : searchAnalytics

Datenindizierung und Suchfunktionen.

Entdecken Sie alle Aktionen von searchAnalytics
Datenaufbereitung

Erstellung eines Datensatzes mit 'Edge Cases': Sonderzeichen, Leere Strings, Duplikate.

Kopiert!
1DATA casuser.messy_tags;
2 LENGTH tag_content $ 50;
3 INFILE DATALINES;
4 INPUT tag_content & $50.;
5 DATALINES;
6#Fehler404
7 
8Login@Problem
9Update!!!
10Update!!!
11System Crash (Critical)
12;
13RUN;

Étapes de réalisation

1
Versuch der Indexerstellung mit problematischen Daten
Kopiert!
1PROC CAS;
2 search.buildTermIndex /
3 TABLE={name='messy_tags', caslib='casuser'}
4 casOut={name='dirty_idx', caslib='casuser', replace=true};
5RUN;
2
Generierung von Autovervollständigung aus bereinigtem Index
Kopiert!
1PROC CAS;
2 searchAnalytics.buildAutoComplete /
3 index={name='dirty_idx', caslib='casuser'}
4 casOut={name='robust_ac', caslib='casuser', replace=true};
5RUN;

Erwartetes Ergebnis


Die Aktion behandelt die NULL-Werte und Duplikate ('Update!!!') korrekt, ohne Fehler zu werfen. Der resultierende Index 'robust_ac' enthält bereinigte, nutzbare Einträge (z.B. 'Login@Problem', 'System Crash'), und Duplikate werden in der Häufigkeitszählung aggregiert.