Die TEXTMINE Prozedur

Die Prozedur TEXTMINE in SAS^© Viya^™ 4 ist ein leistungsstarkes Werkzeug für die Textdatenanalyse. Sie ist in die Cloud Analytic Services (CAS)-Engine integriert, um große Textmengen zu verarbeiten. Zu den Hauptfunktionen gehören: Tokenisierung (Zerlegung von Text in Wörter oder Phrasen), Filterung von Stoppwörtern, Lemmatisierung/Stemming, Extraktion von N-Grammen, Part-of-Speech (POS)-Analyse und die Extraktion benannter Entitäten. Sie wandelt unstrukturierte Texte in eine numerische Darstellung (z. B. eine Term-Dokument-Matrix) um, die dann für prädiktive Modellierungs- oder Clustering-Aufgaben verwendet werden kann. Die Ausführung der Prozedur erfolgt vollständig auf dem CAS-Server, wodurch die Vorteile der verteilten In-Memory-Verarbeitung genutzt werden.

Datenanalyse

Type : CREATION_INTERNE

Die Beispiele verwenden generierte Daten (Datalines) oder Tabellen, die über DATA-Schritte im CAS-Speicher erstellt wurden.

1 Codeblock

PROC TEXTMINE Data

Erklärung :
Dieses Beispiel zeigt die grundlegende Tokenisierung einer kleinen Sammlung von Textdokumenten. Es erstellt eine CAS-Tabelle im Speicher und wendet die TEXTMINE-Prozedur an, um die Standardbegriffe zu extrahieren.

Kopiert!

1	CAS;
2	LIBNAME mycas cas;
3
4	DATA mycas.docs;
5	INFILE DATALINES dlm='\|';
6	INPUT doc_id $ text $100.;
7	DATALINES;
8	1\|Ceci est un document sur l'analyse de texte.
9	2\|L'analyse de texte est très utile pour l'exploration de données.
10	3\|SAS Viya offre de puissants outils d'analyse de données.
11	;
12	RUN;
13
14	PROC TEXTMINE DATA=mycas.docs;
15	id doc_id;
16	text text;
17	RUN;
18	QUIT;

2 Codeblock

PROC TEXTMINE Data

Erklärung :
Dieses Beispiel veranschaulicht die Verwendung der gängigen Optionen des TEXTMINE-Verfahrens. Es filtert Stoppwörter (Stop Words), um irrelevante Wörter zu ignorieren, und wendet die Stammformreduktion (Stemming) an, um Wörter auf ihre Grundform zu reduzieren, was nützlich ist, um Begriffe zu gruppieren und die Themenanalyse zu erleichtern.

Kopiert!

1	CAS;
2	LIBNAME mycas cas;
3
4	DATA mycas.docs_inter;
5	INFILE DATALINES dlm='\|';
6	INPUT doc_id $ text $200.;
7	DATALINES;
8	1\|Les données massives sont importantes pour l'apprentissage automatique et l'analyse prédictive.
9	2\|L'apprentissage automatique et l'intelligence artificielle révolutionnent le traitement des données.
10	3\|Le traitement des données est un domaine clé de l'analyse statistique et de l'intelligence artificielle.
11	;
12	RUN;
13
14	PROC TEXTMINE DATA=mycas.docs_inter;
15	id doc_id;
16	text text;
17	stoplist / default; /* Utilise une liste de mots vides par défaut */
18	stemming; /* Applique la racinisation */
19	RUN;
20	QUIT;

3 Codeblock

PROC TEXTMINE Data

Erklärung :
Dieses fortgeschrittene Beispiel demonstriert die Extraktion von N-Grammen (Wortsequenzen wie 'künstliche Intelligenz' oder 'maschinelles Lernen'). Die Option OUTNGRAM generiert eine Tabelle der N-Gramme, die es ermöglicht, komplexere semantische Beziehungen als einzelne Wörter zu erfassen. Beachten Sie, dass die TEXTMINE-Prozedur sich auf die Extraktion von Begriffen und N-Grammen konzentriert; eine anspruchsvollere Extraktion benannter Entitäten würde spezifischere CAS-Text-Mining-Aktionen oder andere Module von SAS Text Analytics erfordern.

Kopiert!

1	CAS;
2	LIBNAME mycas cas;
3
4	DATA mycas.docs_adv;
5	INFILE DATALINES dlm='\|';
6	INPUT doc_id $ text $200.;
7	DATALINES;
8	1\|La conférence SAS Global Forum 2024 a présenté des innovations en intelligence artificielle.
9	2\|Dr. John Smith, expert en machine learning, a donné une présentation clé sur l'analyse de sentiments.
10	3\|Le siège social de SAS est à Cary, en Caroline du Nord, USA.
11	;
12	run;
13
14	proc textmine data=mycas.docs_adv;
15	id doc_id;
16	text text;
17	outngram out=mycas.ngrams;
18	run;
19	quit;
20
21	proc print data=mycas.ngrams;
22	title "N-grammes extraits";
23	RUN;

4 Codeblock

CAS Action (textmining.sastoken) Data

Erklärung :
Dieses Beispiel veranschaulicht einen direkteren Ansatz für das Text Mining in der SAS Viya Umgebung unter Verwendung der CAS-Aktion `sastoken`. Diese Aktion ist eine der grundlegenden Komponenten, die die TEXTMINE-Prozedur im Hintergrund verwendet. Sie ermöglicht eine effiziente Tokenisierung und Normalisierung von Textdaten direkt auf dem CAS-Server und demonstriert die Leistungsfähigkeit der verteilten Verarbeitung für große Mengen von Textdaten.

Kopiert!

1	CAS;
2	/* Création d'une session CAS */
3	cas sess;
4
5	/* Chargement des données dans CAS */
6	DATA mycas.cas_data;
7	INFILE DATALINES dlm='\|';
8	INPUT doc_id $ text $100.;
9	DATALINES;
10	1\|Le traitement du langage naturel est une branche de l'intelligence artificielle.
11	2\|L'IA et le machine learning transforment l'industrie de la technologie.
12	3\|SAS Viya est une plateforme d'analyse unifiée pour les données et l'IA.
13	;
14	run;
15
16	/* Utilisation de l'ACTION CAS 'sastoken' pour la tokenisation */
17	PROC CAS;
18	textmining.sastoken /
19	caslib='mycas'
20	textinput={
21	caslib='mycas',
22	name='cas_data',
23	id={'doc_id'},
24	text={'text'}
25	}
26	casout={
27	caslib='mycas',
28	name='tokens_cas',
29	replace=TRUE
30	};
31	RUN;
32	QUIT;
33
34	/* Afficher les tokens générés par l'action CAS */
35	PROC PRINT DATA=mycas.tokens_cas;
36	title "Tokens générés par l'ACTION CAS sastoken";
37	RUN;

Dieses Material wird von We Are Cas "wie besehen" zur Verfügung gestellt. Es gibt keine ausdrücklichen oder stillschweigenden Garantien hinsichtlich der Marktgängigkeit oder Eignung für einen bestimmten Zweck in Bezug auf die hierin enthaltenen Materialien oder Codes. We Are Cas ist nicht verantwortlich für Fehler in diesem Material, wie es jetzt existiert oder existieren wird, noch bietet We Are Cas technischen Support dafür an.

Retour à la liste