Indexación de Catálogo de Productos para Búsqueda Web

Contexto empresarial

Una empresa de comercio electrónico necesita implementar una barra de búsqueda inteligente en su sitio web. El objetivo es indexar los nombres y descripciones de los productos para permitir a los usuarios encontrar artículos basándose en palabras clave relevantes, incluso si estas aparecen en la descripción detallada y no solo en el título.

Sobre el conjunto : searchAnalytics

Indexación de datos y funcionalidades de búsqueda.

Descubrir todas las acciones de searchAnalytics

Preparación de datos

Creación de un catálogo de productos simulado con títulos y descripciones en español.

¡Copiado!

1
2	DATA casuser.catalogo_productos;
3	LENGTH id_prod 8 nombre $50 descripcion $200;
4	INFILE DATALINES delimiter='\|';
5	INPUT id_prod nombre $ descripcion $;
6	DATALINES;
7	1\|Zapatillas Runner\|Calzado deportivo ideal para correr maratones y entrenamiento diario\| 2\|Camiseta Algodón\|Camiseta básica 100% algodón, disponible en varios colores, muy cómoda\| 3\|Smartwatch X\|Reloj inteligente con monitor de ritmo cardíaco y GPS integrado para deportes\| 4\|Cafetera Express\|Máquina de café automática con molinillo de granos cerámico\| ;
8
9	RUN;
10

Étapes de réalisation

Carga y verificación de la tabla de productos.

¡Copiado!

1
2	PROC CAS;
3	TABLE.tableInfo / TABLE={name='catalogo_productos', caslib='casuser'};
4
5	RUN;
6

Ejecución de buildTermIndex con tokenización en español sobre campos específicos.

¡Copiado!

1
2	PROC CAS;
3	searchAnalytics.buildTermIndex / TABLE={name='catalogo_productos', caslib='casuser'}, casOut={name='indice_productos', caslib='casuser', replace=true}, fields={'nombre', 'descripcion'}, tokenize=true, language='SPANISH';
4
5	RUN;
6

Resultado esperado

Se espera que la tabla 'indice_productos' contenga términos individuales (tokenizados) extraídos tanto del 'nombre' como de la 'descripcion'. Palabras comunes (stop words) del español podrían ser gestionadas por el tokenizador, y los términos deben tener un conteo de frecuencia asociado que refleje su aparición en los campos seleccionados.

Voir la documentation technique de buildTermIndex