applyConcept - WeAreCAS

Q: Was ist der Hauptzweck der `applyConcept`-Aktion?

Die `applyConcept`-Aktion führt die Konzeptextraktion unter Verwendung eines Konzeptextraktionsmodells (LI-Datei) durch.

Q: Welche Arten von Ausgabetabellen kann die `applyConcept`-Aktion erzeugen?

Die Aktion kann eine `casOut`-Tabelle für Konzeptübereinstimmungsergebnisse, eine `factOut`-Tabelle für Faktenübereinstimmungsergebnisse und eine `ruleMatchOut`-Tabelle für Regelübereinstimmungsergebnisse erstellen. Letztere kann als Eingabe für die `ruleGen`-Aktion verwendet werden.

Q: Was steuert der `matchType`-Parameter?

Der `matchType`-Parameter gibt den Typ der zurückzugebenden Übereinstimmung an. Die Optionen sind 'ALL' für alle Übereinstimmungen, 'BEST' für die beste Übereinstimmung und 'LONGEST' für die längste Übereinstimmung. Der Standardwert ist 'ALL'.

Q: Wie kann die Leistung bei der Verwendung des CLAUS_n-Operators verbessert werden?

Um die Leistung bei der Verwendung des CLAUS_n-Operators zu verbessern, können Sie den `parseTableOut`-Parameter verwenden, um eine Tabelle mit vorverarbeiteten Dokumenten zu speichern. Diese Tabelle kann dann mit dem `parseTableIn`-Parameter in nachfolgenden Aufrufen wiederverwendet werden, um eine wiederholte Verarbeitung zu vermeiden.

Q: Kann ich bestimmte Konzepte von der Ausgabe ausschließen?

Ja, der `dropConcepts`-Parameter ermöglicht es Ihnen, eine Liste von primären Konzepten anzugeben, die aus den CAS-Ausgabetabellen entfernt werden sollen, auch wenn sie im Modell für die Verarbeitung beibehalten werden.

Inhaltsverzeichnis

Auf einen Blick

Die Hauptfunktion der CAS-Action applyConcept besteht darin, unstrukturierte Textdaten in wertvolle, maschinenlesbare Informationen zu überführen. Durch den Einsatz vorkompilierter Extraktionsmodelle (LI-Dateien) können Administratoren und Analysten komplexe linguistische Muster erkennen und gezielt Entitäten aus Dokumenten isolieren. Dies ermöglicht eine automatisierte Datenanreicherung, die weit über einfache Suchfunktionen hinausgeht. Um Ihnen den Einstieg und die Optimierung Ihrer Prozesse zu erleichtern, bietet diese Seite eine detaillierte Zusammenstellung von Fragen und Antworten rund um die technische Anwendung dieses Moduls.

Beschreibung

Führt die Konzeptextraktion unter Verwendung eines Konzeptextraktionsmodells (LI-Datei) durch. Diese Aktion ermöglicht es, vordefinierte linguistische Regeln auf einen Textkorpus anzuwenden, um relevante Konzepte zu identifizieren und zu extrahieren. Sie ist ein wesentlicher Bestandteil der Textanalyse in SAS Viya und wird häufig für Aufgaben wie die Inhaltskategorisierung, die Extraktion von Entitäten und die Stimmungsanalyse verwendet.

textRuleScore.applyConcept { casOut={<casouttable>}, docId="string", dropConcepts={"string-1" <, "string-2", ...>}, factOut={<casouttable>}, language="string", litiChunkSize="string", matchType="ALL" | "BEST" | "LONGEST", model={<castable>}, parseTableIn={<castable>}, parseTableOut={<casouttable>}, ruleMatchOut={<casouttable>}, table={<castable>}, text="string" };

Einstellungen

Parameter	Beschreibung
casOut	Gibt die Ausgabe-CAS-Tabelle an, die die Informationen zu den Konzeptübereinstimmungen enthält.
docId	Gibt den Variablennamen der CAS-Tabelle an, der die Dokument-IDs enthält.
dropConcepts	Gibt eine Liste von primären Konzepten an, die aus den CAS-Ausgabetabellen entfernt werden sollen.
factOut	Gibt die Ausgabe-CAS-Tabelle an, die die Informationen zu den Faktenübereinstimmungen enthält.
language	Gibt die in der Eingabetabelle verwendete Sprache an. Standardmäßig ist dies 'ENGLISH'.
litiChunkSize	Gibt die Größe der Chunks an, die bei der Verarbeitung eines Dokuments verwendet werden. Standardmäßig 32K.
matchType	Gibt den Wert für den Eingabe-Übereinstimmungstyp an. Mögliche Werte sind 'ALL', 'BEST' oder 'LONGEST'. Standardmäßig 'ALL'.
model	Gibt eine Eingabe-CAS-Tabelle an, die das benutzerdefinierte LI-Modell enthält. Wenn nicht angegeben, wird das Basismodell verwendet.
parseTableIn	Gibt den Namen der CAS-Tabelle an, die mit dem Parameter parseTableOut in einem vorherigen Aufruf der applyConcept-Aktion erstellt wurde.
parseTableOut	Gibt eine CAS-Ausgabetabelle an, die vorverarbeitete Eingabedokumente enthält.
ruleMatchOut	Gibt die Ausgabe-CAS-Tabelle an, die die Informationen zu den Regelübereinstimmungen enthält.
table	Gibt eine Eingabe-CAS-Tabelle an, die die zu analysierenden Eingabedokumente enthält.
text	Gibt den Variablennamen der CAS-Tabelle an, der den zu verarbeitenden Text enthält.

Datenaufbereitung Datenaufbereitungsblatt ansehen

Erstellung von Beispieldaten

Dieser SAS-Code erstellt eine CAS-Tabelle namens 'reviews', die Kundenrezensionen enthält. Diese Tabelle wird in den folgenden Beispielen verwendet, um die Konzeptextraktion zu demonstrieren.

Kopiert!

1	DATA casuser.reviews;
2	INFILE DATALINES delimiter='\|';
3	LENGTH text $500 docid $100;
4	INPUT text$ docid$;
5	DATALINES;
6	This is a great product, I love it!\|review1
7	The service was terrible, very slow.\|review2
8	I am very satisfied with the quality.\|review3
9	It broke after one week, very disappointing.\|review4
10	;
11	RUN;

Beispiele

Dieses Beispiel wendet das Standard-Konzeptmodell auf die Tabelle 'reviews' an und speichert die Ergebnisse in der Tabelle 'concept_matches'.

SAS® / CAS-Code Code wartet auf Validierung durch die Community

Kopiert!

1	PROC CAS;
2	textRuleScore.applyConcept /
3	TABLE={caslib='casuser', name='reviews'},
4	docId='docid',
5	text='text',
6	casOut={caslib='casuser', name='concept_matches', replace=true};
7	RUN;

Ergebnis :
Eine CAS-Tabelle namens 'concept_matches' wird in der 'casuser'-Bibliothek erstellt. Sie enthält die extrahierten Konzepte aus jeder Rezension, wie z.B. 'great product' oder 'terrible service', zusammen mit ihrer Position im Text.

Dieses Beispiel verwendet ein benutzerdefiniertes LITI-Modell (das zuvor in 'my_liti_model' geladen wurde), um Konzepte zu extrahieren. Es gibt drei Ausgabetabellen aus: eine für Konzeptübereinstimmungen ('concept_matches_detailed'), eine für Fakten ('fact_matches') und eine für Regelübereinstimmungen ('rule_matches'). Es wird nur der längste Treffer pro Konzept beibehalten.

SAS® / CAS-Code Code wartet auf Validierung durch die Community

Kopiert!

1	PROC CAS;
2	textRuleScore.applyConcept /
3	TABLE={caslib='casuser', name='reviews'},
4	docId='docid',
5	text='text',
6	model={caslib='casuser', name='my_liti_model'},
7	matchType='LONGEST',
8	casOut={caslib='casuser', name='concept_matches_detailed', replace=true},
9	factOut={caslib='casuser', name='fact_matches', replace=true},
10	ruleMatchOut={caslib='casuser', name='rule_matches', replace=true};
11	RUN;

Ergebnis :
Drei neue CAS-Tabellen werden erstellt: 'concept_matches_detailed' enthält die längsten Konzeptübereinstimmungen gemäß dem benutzerdefinierten Modell. 'fact_matches' enthält alle extrahierten Fakten (Argumente von Prädikaten). 'rule_matches' enthält detaillierte Informationen über die ausgelösten Regeln, die für das Debugging des LITI-Modells nützlich sind.

In diesem Beispiel wird die Konzeptextraktion durchgeführt, aber die Ergebnisse für die vordefinierten Konzepte 'nlpPositive' und 'nlpNegative' werden aus der Ausgabetabelle ausgeschlossen. Dies ist nützlich, um die Ausgabe auf spezifische, für die Analyse relevante Konzepte zu konzentrieren.

SAS® / CAS-Code Code wartet auf Validierung durch die Community

Kopiert!

1	PROC CAS;
2	textRuleScore.applyConcept /
3	TABLE={caslib='casuser', name='reviews'},
4	docId='docid',
5	text='text',
6	dropConcepts={'nlpPositive', 'nlpNegative'},
7	casOut={caslib='casuser', name='concept_matches_filtered', replace=true};
8	RUN;

Ergebnis :
Die Ausgabetabelle 'concept_matches_filtered' wird erstellt. Sie enthält alle extrahierten Konzepte mit Ausnahme derjenigen, die als 'nlpPositive' oder 'nlpNegative' klassifiziert sind, was eine fokussiertere Analyse ermöglicht.

FAQ

Was ist der Hauptzweck der `applyConcept`-Aktion?

Welche Arten von Ausgabetabellen kann die `applyConcept`-Aktion erzeugen?

Was steuert der `matchType`-Parameter?

Wie kann die Leistung bei der Verwendung des CLAUS_n-Operators verbessert werden?

Kann ich bestimmte Konzepte von der Ausgabe ausschließen?

Zugehörige Szenarien

Anwendungsfall

Analyse von Kundenfeedback zur Produktverbesserung

Ein Softwareunternehmen möchte Kundenfeedback aus Online-Foren analysieren, um häufig genannte Produktmerkmale und die damit verbundene Stimmung zu identifizieren. Ziel ist es, ...

Szenario anzeigen

Anwendungsfall

Leistungsoptimierung bei der Verarbeitung großer Mengen von Schadensmeldungen

Eine Versicherungsgesellschaft muss täglich Tausende von Schadensmeldungen verarbeiten, um sie schnell an die zuständige Abteilung (z.B. Wasserschaden, Brandschaden) weiterzulei...

Szenario anzeigen

Anwendungsfall

Screening von Finanzkommunikation mit Ausschluss von Störkonzepten und Umgang mit unsauberen Daten

Eine Finanzaufsichtsbehörde prüft interne E-Mails auf Verstöße gegen Compliance-Richtlinien. Sie sucht nach Erwähnungen spezifischer, riskanter Finanzprodukte, möchte aber allge...

Szenario anzeigen

Actions associées

textRuleScore

applyCategory

Die Aktion `applyCategory` wendet ein vordefiniertes Kategoriemodell (eine MC...

textRuleScore

loadTableFromDisk

Lädt eine Binärdatei für ein Sentiment-Analyse-Modell (SAM), eine Kategoriemo...

Inhaltsverzeichnis

Auf einen Blick

Beschreibung

Erstellung von Beispieldaten

Beispiele

Einfache Konzeptextraktion

Detaillierte Konzeptextraktion mit benutzerdefiniertem Modell und mehreren Ausgaben

Konzeptextraktion unter Ausschluss bestimmter Konzepte

FAQ

Zugehörige Szenarien

Anwendungsfall

Analyse von Kundenfeedback zur Produktverbesserung

Anwendungsfall

Leistungsoptimierung bei der Verarbeitung großer Mengen von Schadensmeldungen

Anwendungsfall

Screening von Finanzkommunikation mit Ausschluss von Störkonzepten und Umgang mit unsauberen Daten

Actions associées

applyCategory

loadTableFromDisk