Hochleistungs-Indizierung für digitalen Bibliothekskatalog

Geschäftskontext

Eine nationale digitale Bibliothek muss Millionen von Buchtiteln und Autorennamen indizieren. Das Ziel ist es, die Leistung der `buildAutoComplete`-Aktion bei einem größeren Datensatz zu validieren, um sicherzustellen, dass das System auch bei hoher Last reaktionsschnelle Suchvorschläge liefern kann.

Über das Set : searchAnalytics

Datenindizierung und Suchfunktionen.

Entdecken Sie alle Aktionen von searchAnalytics

Datenaufbereitung

Simulation eines großen Datensatzes durch Vervielfachung von Buchtiteln.

Kopiert!

1	DATA casuser.library_books;
2	LENGTH book_title $ 200;
3	DO i=1 to 10000;
4	book_title = catx(' ', 'Historische Analyse Band', i, 'Der Geschichte');
5	OUTPUT;
6	book_title = catx(' ', 'Moderne Physik Grundlagen', i, 'Edition');
7	OUTPUT;
8	book_title = catx(' ', 'Gartenbau und Landschaftsarchitektur', i);
9	OUTPUT;
10	END;
11	RUN;

Étapes de réalisation

Erstellung des Begriffsindex für den großen Datensatz

Kopiert!

1	PROC CAS;
2	search.buildTermIndex /
3	TABLE={name='library_books', caslib='casuser'}
4	casOut={name='books_term_idx', caslib='casuser', replace=true};
5	RUN;

Erstellung des Autovervollständigungsindex unter Last

Kopiert!

1	PROC CAS;
2	searchAnalytics.buildAutoComplete /
3	index={name='books_term_idx', caslib='casuser'}
4	casOut={name='books_ac_index', caslib='casuser', replace=true};
5	RUN;

Erwartetes Ergebnis

Trotz der hohen Anzahl an Einträgen (30.000 Zeilen) wird die Tabelle 'books_ac_index' effizient erstellt. Das System skaliert korrekt und die Ausführungszeit bleibt in einem akzeptablen Rahmen für Batch-Prozesse.

Voir la documentation technique de buildAutoComplete