searchAnalytics buildTermIndex

Gestión de Datos Multilingües y Valores Nulos (Caso Límite)

Scénario de test & Cas d'usage

Contexto empresarial

Una plataforma de soporte al cliente global recibe comentarios en múltiples idiomas, a menudo con caracteres especiales, emojis o campos vacíos. Se requiere verificar si la acción puede construir un índice robusto sin fallar ante datos 'sucios' o inconsistentes, utilizando el tokenizador universal.
Sobre el conjunto : searchAnalytics

Indexación de datos y funcionalidades de búsqueda.

Descubrir todas las acciones de searchAnalytics
Preparación de datos

Creación de datos con casos borde: nulos, caracteres especiales, mezcla de idiomas.

¡Copiado!
1 
2DATA casuser.feedback_mixto;
3LENGTH id 8 comentario $100;
4INFILE DATALINES delimiter=',';
5INPUT id comentario $;
6DATALINES;
71,Great service! 2,Muy mal servicio :( 3,. 4,日本語のテスト 5,Service was okay... pero lento 6, ;
8 
9RUN;
10 

Étapes de réalisation

1
Intento de indexación con lenguaje UNIVERSAL y tokenización activada sobre datos irregulares.
¡Copiado!
1 
2PROC CAS;
3searchAnalytics.buildTermIndex / TABLE={name='feedback_mixto', caslib='casuser'}, casOut={name='indice_robusto', caslib='casuser', replace=true}, fields={'comentario'}, tokenize=true, language='UNIVERSAL';
4 
5RUN;
6 
2
Validación de que los nulos no causaron error y visualización de términos especiales.
¡Copiado!
1 
2PROC CAS;
3TABLE.fetch / TABLE={name='indice_robusto', caslib='casuser'};
4 
5RUN;
6 

Resultado esperado


La acción no debe fallar. Los registros con valores nulos o vacíos deben ser ignorados o manejados silenciosamente. El índice debe contener términos tanto en inglés como en español y caracteres especiales/asiáticos procesados correctamente bajo el esquema UNIVERSAL.