searchAnalytics buildTermIndex

Massenverarbeitung und Sprachspezifikation bei Nachrichten

Scénario de test & Cas d'usage

Geschäftskontext

Eine Nachrichtenagentur archiviert täglich Tausende von Artikeln. Um das Archiv effizient durchsuchbar zu machen, muss ein Index erstellt werden. Da es sich um deutsche Texte handelt, ist die korrekte sprachliche Verarbeitung (z.B. für Umlaute und Wortstämme) entscheidend. Dieser Test prüft die Leistung bei größerem Datenvolumen und die Sprachunterstützung.
Über das Set : searchAnalytics

Datenindizierung und Suchfunktionen.

Entdecken Sie alle Aktionen von searchAnalytics
Datenaufbereitung

Simulation eines größeren Datensatzes durch Vervielfachung von Basis-Nachrichtenmeldungen.

Kopiert!
1 
2DATA mycas.news_archive;
3LENGTH article_id 8 content $1000;
4array topics[3] $50 _temporary_ ('Wirtschaftskrise in Europa', 'Neuer Sportrekord aufgestellt', 'Wetterbericht für die kommende Woche');
5DO i=1 to 5000;
6article_id=i;
7content = catx(' ', topics[1+mod(i,3)], ' - Ausführlicher Bericht folgt in Kürze. Lesen Sie mehr über dieses Thema.');
8OUTPUT;
9END;
10 
11RUN;
12 

Étapes de réalisation

1
Identifizierung signifikanter Begriffe aus dem Nachrichtenarchiv.
Kopiert!
1 
2PROC CAS;
3searchAnalytics.significantTerms / TABLE={name='news_archive', vars={'content'}} docId='article_id' casOut={name='news_sig_terms', replace=true};
4 
5RUN;
6 
2
Erstellung des Index mit expliziter deutscher Sprachangabe und Felddefinition.
Kopiert!
1searchAnalytics.buildTermIndex / TABLE={name='news_sig_terms'} casOut={name='news_index', replace=true} language='GERMAN' fields={'_term_', '_frequency_'};
2 
3RUN;
4 
5QUIT;
6 

Erwartetes Ergebnis


Die Aktion verarbeitet das Volumen von 5000 Artikeln performant. Die resultierende Indextabelle 'news_index' berücksichtigt die deutsche Linguistik korrekt. Die Ausgabe beschränkt sich auf die im Parameter 'fields' definierten Spalten, was die Speicherplatznutzung optimiert.