searchAnalytics

buildTermIndex

Beschreibung

Erstellt eine Begriffsindextabelle für signifikante Begriffe. Diese Aktion wird typischerweise nach der Aktion `significantTerms` verwendet, um die resultierenden signifikanten Begriffe zu indizieren und so die Suchleistung und die Analysefähigkeiten zu verbessern.

searchAnalytics.buildTermIndex / casOut={...} fields={...} language="..." table={...} tokenize=TRUE | FALSE ;
Einstellungen
ParameterBeschreibung
casOutGibt die Ausgabetabelle an, in der die Begriffsliste gespeichert werden soll.
fieldsGibt eine Liste von Feldern an, in denen die Worthäufigkeit gezählt werden soll. Dies ist ein optionaler Parameter.
languageGibt die Sprache an, die für den Tokenizer des Indexfeldes verwendet werden soll. Standard ist 'UNIVERSAL'.
tableGibt den Namen der Eingabe-Indextabelle an, die verwendet wird, um Begriffe in die Aktion buildTermIndex einzuspeisen.
tokenizeGibt an, ob das Indexfeld tokenisiert wird. Standard ist FALSE.
Datenvorbereitung

Erstellen einer Beispieltabelle `mycas.reviews` mit Produktbewertungen, die als Eingabe für die nachfolgenden Aktionen dient.

Kopiert!
1DATA mycas.reviews;
2 INFILE DATALINES delimiter='|';
3 LENGTH text $500 doc_id $10;
4 INPUT doc_id $ text $;
5 DATALINES;
61|Das ist ein tolles Produkt, sehr zu empfehlen.
72|Ich bin nicht zufrieden, das Produkt war defekt.
83|Guter Preis, aber die Qualität könnte besser sein.
94|Fantastisch! Das beste Produkt, das ich je hatte.
105|Ein solides Produkt für den täglichen Gebrauch.
11;
12RUN;

Beispiele

Dieses Beispiel extrahiert zuerst signifikante Begriffe aus der Tabelle `reviews` und erstellt dann einen Begriffsindex für diese Begriffe. Dies ist der Standardanwendungsfall.

SAS® / CAS-Code Code wartet auf Validierung durch die Community
Kopiert!
1PROC CAS;
2 searchAnalytics.significantTerms /
3 TABLE={name='reviews', vars={'text'}}
4 docId='doc_id'
5 casOut={name='significant_terms', replace=true};
6 RUN;
7 searchAnalytics.buildTermIndex /
8 TABLE={name='significant_terms'}
9 casOut={name='term_index', replace=true};
10 RUN;
11QUIT;
Ergebnis :
Die Aktion erstellt eine Ausgabetabelle `mycas.term_index`, die die indizierten Begriffe enthält. Die resultierende Tabelle enthält Spalten wie `_term_`, `_doc_id_` und Frequenzinformationen, die für schnelle Suchvorgänge optimiert sind.

Dieses Beispiel zeigt die Verwendung der Parameter `tokenize` und `language`. Wenn `tokenize` auf TRUE gesetzt ist, wird das Feld `_term_` aus der Eingabetabelle `significant_terms` tokenisiert, bevor der Index erstellt wird. Dies ist nützlich, wenn die signifikanten Begriffe Phrasen sind und man nach einzelnen Wörtern innerhalb dieser Phrasen suchen möchte. Die Sprache wird auf Deutsch gesetzt, um eine korrekte linguistische Verarbeitung sicherzustellen.

SAS® / CAS-Code Code wartet auf Validierung durch die Community
Kopiert!
1PROC CAS;
2 searchAnalytics.significantTerms /
3 TABLE={name='reviews', vars={'text'}}
4 docId='doc_id'
5 casOut={name='significant_terms_phrases', replace=true};
6 RUN;
7 searchAnalytics.buildTermIndex /
8 TABLE={name='significant_terms_phrases'}
9 casOut={name='term_index_tokenized', replace=true}
10 tokenize=true
11 language='GERMAN';
12 RUN;
13QUIT;
Ergebnis :
Die Ausgabetabelle `mycas.term_index_tokenized` wird erstellt. Da `tokenize` auf TRUE gesetzt wurde, werden Phrasen aus der Eingabe (z.B. 'tolles produkt') in einzelne Tokens ('tolles', 'produkt') zerlegt und indiziert, wobei die deutsche Sprache für die Tokenisierung verwendet wird.

Zugehörige Szenarien

Anwendungsfall
Standard-Indizierung von Kundenrezensionen

Ein E-Commerce-Unternehmen möchte das Kundenfeedback zu seinen Produkten analysieren. Das Ziel ist es, aus den Freitext-Rezensionen einen durchsuchbaren Index zu erstellen, um s...

Anwendungsfall
Massenverarbeitung und Sprachspezifikation bei Nachrichten

Eine Nachrichtenagentur archiviert täglich Tausende von Artikeln. Um das Archiv effizient durchsuchbar zu machen, muss ein Index erstellt werden. Da es sich um deutsche Texte ha...

Anwendungsfall
Analyse technischer Logs mit Tokenisierung (Edge Case)

Ein IT-Sicherheitsteam analysiert Server-Logs auf Anomalien. Die Log-Einträge enthalten oft zusammengesetzte technische Zeichenfolgen (z.B. 'Error_404', 'Connection-Refused'). U...