Robustheitstest mit Sonderzeichen und fehlenden Werten

Geschäftskontext

Ein Kundensupport-System analysiert benutzerdefinierte Tags aus Tickets. Diese Daten sind oft 'schmutzig', enthalten Sonderzeichen, NULL-Werte oder extrem lange Strings. Der Test soll sicherstellen, dass die Aktion nicht abstürzt und robuste Indizes auch aus unvollkommenen Daten erstellt.

Über das Set : searchAnalytics

Datenindizierung und Suchfunktionen.

Entdecken Sie alle Aktionen von searchAnalytics

Datenaufbereitung

Erstellung eines Datensatzes mit 'Edge Cases': Sonderzeichen, Leere Strings, Duplikate.

Kopiert!

1	DATA casuser.messy_tags;
2	LENGTH tag_content $ 50;
3	INFILE DATALINES;
4	INPUT tag_content & $50.;
5	DATALINES;
6	#Fehler404
7
8	Login@Problem
9	Update!!!
10	Update!!!
11	System Crash (Critical)
12	;
13	RUN;

Étapes de réalisation

Versuch der Indexerstellung mit problematischen Daten

Kopiert!

1	PROC CAS;
2	search.buildTermIndex /
3	TABLE={name='messy_tags', caslib='casuser'}
4	casOut={name='dirty_idx', caslib='casuser', replace=true};
5	RUN;

Generierung von Autovervollständigung aus bereinigtem Index

Kopiert!

1	PROC CAS;
2	searchAnalytics.buildAutoComplete /
3	index={name='dirty_idx', caslib='casuser'}
4	casOut={name='robust_ac', caslib='casuser', replace=true};
5	RUN;

Erwartetes Ergebnis

Die Aktion behandelt die NULL-Werte und Duplikate ('Update!!!') korrekt, ohne Fehler zu werfen. Der resultierende Index 'robust_ac' enthält bereinigte, nutzbare Einträge (z.B. 'Login@Problem', 'System Crash'), und Duplikate werden in der Häufigkeitszählung aggregiert.

Voir la documentation technique de buildAutoComplete