searchAnalytics buildTermIndex

Indexación de Catálogo de Productos para Búsqueda Web

Scénario de test & Cas d'usage

Contexto empresarial

Una empresa de comercio electrónico necesita implementar una barra de búsqueda inteligente en su sitio web. El objetivo es indexar los nombres y descripciones de los productos para permitir a los usuarios encontrar artículos basándose en palabras clave relevantes, incluso si estas aparecen en la descripción detallada y no solo en el título.
Sobre el conjunto : searchAnalytics

Indexación de datos y funcionalidades de búsqueda.

Descubrir todas las acciones de searchAnalytics
Preparación de datos

Creación de un catálogo de productos simulado con títulos y descripciones en español.

¡Copiado!
1 
2DATA casuser.catalogo_productos;
3LENGTH id_prod 8 nombre $50 descripcion $200;
4INFILE DATALINES delimiter='|';
5INPUT id_prod nombre $ descripcion $;
6DATALINES;
71|Zapatillas Runner|Calzado deportivo ideal para correr maratones y entrenamiento diario| 2|Camiseta Algodón|Camiseta básica 100% algodón, disponible en varios colores, muy cómoda| 3|Smartwatch X|Reloj inteligente con monitor de ritmo cardíaco y GPS integrado para deportes| 4|Cafetera Express|Máquina de café automática con molinillo de granos cerámico| ;
8 
9RUN;
10 

Étapes de réalisation

1
Carga y verificación de la tabla de productos.
¡Copiado!
1 
2PROC CAS;
3TABLE.tableInfo / TABLE={name='catalogo_productos', caslib='casuser'};
4 
5RUN;
6 
2
Ejecución de buildTermIndex con tokenización en español sobre campos específicos.
¡Copiado!
1 
2PROC CAS;
3searchAnalytics.buildTermIndex / TABLE={name='catalogo_productos', caslib='casuser'}, casOut={name='indice_productos', caslib='casuser', replace=true}, fields={'nombre', 'descripcion'}, tokenize=true, language='SPANISH';
4 
5RUN;
6 

Resultado esperado


Se espera que la tabla 'indice_productos' contenga términos individuales (tokenizados) extraídos tanto del 'nombre' como de la 'descripcion'. Palabras comunes (stop words) del español podrían ser gestionadas por el tokenizador, y los términos deben tener un conteo de frecuencia asociado que refleje su aparición en los campos seleccionados.