Massenverarbeitung und Sprachspezifikation bei Nachrichten

Geschäftskontext

Eine Nachrichtenagentur archiviert täglich Tausende von Artikeln. Um das Archiv effizient durchsuchbar zu machen, muss ein Index erstellt werden. Da es sich um deutsche Texte handelt, ist die korrekte sprachliche Verarbeitung (z.B. für Umlaute und Wortstämme) entscheidend. Dieser Test prüft die Leistung bei größerem Datenvolumen und die Sprachunterstützung.

Über das Set : searchAnalytics

Datenindizierung und Suchfunktionen.

Entdecken Sie alle Aktionen von searchAnalytics

Datenaufbereitung

Simulation eines größeren Datensatzes durch Vervielfachung von Basis-Nachrichtenmeldungen.

Kopiert!

1
2	DATA mycas.news_archive;
3	LENGTH article_id 8 content $1000;
4	array topics[3] $50 _temporary_ ('Wirtschaftskrise in Europa', 'Neuer Sportrekord aufgestellt', 'Wetterbericht für die kommende Woche');
5	DO i=1 to 5000;
6	article_id=i;
7	content = catx(' ', topics[1+mod(i,3)], ' - Ausführlicher Bericht folgt in Kürze. Lesen Sie mehr über dieses Thema.');
8	OUTPUT;
9	END;
10
11	RUN;
12

Étapes de réalisation

Identifizierung signifikanter Begriffe aus dem Nachrichtenarchiv.

Kopiert!

1
2	PROC CAS;
3	searchAnalytics.significantTerms / TABLE={name='news_archive', vars={'content'}} docId='article_id' casOut={name='news_sig_terms', replace=true};
4
5	RUN;
6

Erstellung des Index mit expliziter deutscher Sprachangabe und Felddefinition.

Kopiert!

1	searchAnalytics.buildTermIndex / TABLE={name='news_sig_terms'} casOut={name='news_index', replace=true} language='GERMAN' fields={'_term_', '_frequency_'};
2
3	RUN;
4
5	QUIT;
6

Erwartetes Ergebnis

Die Aktion verarbeitet das Volumen von 5000 Artikeln performant. Die resultierende Indextabelle 'news_index' berücksichtigt die deutsche Linguistik korrekt. Die Ausgabe beschränkt sich auf die im Parameter 'fields' definierten Spalten, was die Speicherplatznutzung optimiert.

Voir la documentation technique de buildTermIndex