Prueba de Volumen: Indización de Títulos Bibliográficos Masivos

Contexto empresarial

La Biblioteca Nacional está digitalizando su catálogo. Se necesita verificar que el sistema de autocompletado pueda manejar eficientemente la generación de términos a partir de una lista masiva de títulos de libros (100,000 registros simulados), asegurando tiempos de respuesta adecuados.

Sobre el conjunto : searchAnalytics

Indexación de datos y funcionalidades de búsqueda.

Descubrir todas las acciones de searchAnalytics

Preparación de datos

Generación simulada de 100,000 títulos de libros variados mediante bucle.

¡Copiado!

1
2	DATA casuser.libros_masivos;
3	LENGTH titulo $100;
4	DO i=1 to 100000;
5	titulo = catx(' ', 'Libro', put(i, z6.), 'Historia', 'Ciencia', 'Ficción');
6	OUTPUT;
7	END;
8	drop i;
9
10	RUN;
11

Étapes de réalisation

Construcción del índice de búsqueda para el gran volumen de datos.

¡Copiado!

1	PROC CAS;
2	search.buildIndex /
3	TABLE={caslib='casuser', name='libros_masivos'}
4	casout={caslib='casuser', name='indice_libros', replace=true};
5	RUN;

Ejecución de buildAutoComplete sobre el índice masivo.

¡Copiado!

1	PROC CAS;
2	searchAnalytics.buildAutoComplete /
3	index={caslib='casuser', name='indice_libros'}
4	casOut={caslib='casuser', name='auto_libros_out', replace=true};
5	RUN;

Resultado esperado

El proceso debe finalizar correctamente manejando el volumen de datos. La tabla de salida 'auto_libros_out' debe contener las entradas correctas (ej. 'libro', 'historia', 'ciencia') y reflejar la alta frecuencia de estos términos repetidos en los 100,000 registros.

Voir la documentation technique de buildAutoComplete