Veröffentlicht am :
Textanalyse CREATION_INTERNE

Die TEXTMINE Prozedur

Dieser Code ist auch verfügbar auf: English Español Français
Wartet auf Validierung
Die Prozedur TEXTMINE in SAS© Viya 4 ist ein leistungsstarkes Werkzeug für die Textdatenanalyse. Sie ist in die Cloud Analytic Services (CAS)-Engine integriert, um große Textmengen zu verarbeiten. Zu den Hauptfunktionen gehören: Tokenisierung (Zerlegung von Text in Wörter oder Phrasen), Filterung von Stoppwörtern, Lemmatisierung/Stemming, Extraktion von N-Grammen, Part-of-Speech (POS)-Analyse und die Extraktion benannter Entitäten. Sie wandelt unstrukturierte Texte in eine numerische Darstellung (z. B. eine Term-Dokument-Matrix) um, die dann für prädiktive Modellierungs- oder Clustering-Aufgaben verwendet werden kann. Die Ausführung der Prozedur erfolgt vollständig auf dem CAS-Server, wodurch die Vorteile der verteilten In-Memory-Verarbeitung genutzt werden.
Datenanalyse

Type : CREATION_INTERNE


Die Beispiele verwenden generierte Daten (Datalines) oder Tabellen, die über DATA-Schritte im CAS-Speicher erstellt wurden.

1 Codeblock
PROC TEXTMINE Data
Erklärung :
Dieses Beispiel zeigt die grundlegende Tokenisierung einer kleinen Sammlung von Textdokumenten. Es erstellt eine CAS-Tabelle im Speicher und wendet die TEXTMINE-Prozedur an, um die Standardbegriffe zu extrahieren.
Kopiert!
1CAS;
2LIBNAME mycas cas;
3 
4DATA mycas.docs;
5 INFILE DATALINES dlm='|';
6 INPUT doc_id $ text $100.;
7DATALINES;
81|Ceci est un document sur l'analyse de texte.
92|L'analyse de texte est très utile pour l'exploration de données.
103|SAS Viya offre de puissants outils d'analyse de données.
11;
12RUN;
13 
14PROC TEXTMINE DATA=mycas.docs;
15 id doc_id;
16 text text;
17 RUN;
18QUIT;
2 Codeblock
PROC TEXTMINE Data
Erklärung :
Dieses Beispiel veranschaulicht die Verwendung der gängigen Optionen des TEXTMINE-Verfahrens. Es filtert Stoppwörter (Stop Words), um irrelevante Wörter zu ignorieren, und wendet die Stammformreduktion (Stemming) an, um Wörter auf ihre Grundform zu reduzieren, was nützlich ist, um Begriffe zu gruppieren und die Themenanalyse zu erleichtern.
Kopiert!
1CAS;
2LIBNAME mycas cas;
3 
4DATA mycas.docs_inter;
5 INFILE DATALINES dlm='|';
6 INPUT doc_id $ text $200.;
7DATALINES;
81|Les données massives sont importantes pour l'apprentissage automatique et l'analyse prédictive.
92|L'apprentissage automatique et l'intelligence artificielle révolutionnent le traitement des données.
103|Le traitement des données est un domaine clé de l'analyse statistique et de l'intelligence artificielle.
11;
12RUN;
13 
14PROC TEXTMINE DATA=mycas.docs_inter;
15 id doc_id;
16 text text;
17 stoplist / default; /* Utilise une liste de mots vides par défaut */
18 stemming; /* Applique la racinisation */
19 RUN;
20QUIT;
3 Codeblock
PROC TEXTMINE Data
Erklärung :
Dieses fortgeschrittene Beispiel demonstriert die Extraktion von N-Grammen (Wortsequenzen wie 'künstliche Intelligenz' oder 'maschinelles Lernen'). Die Option OUTNGRAM generiert eine Tabelle der N-Gramme, die es ermöglicht, komplexere semantische Beziehungen als einzelne Wörter zu erfassen. Beachten Sie, dass die TEXTMINE-Prozedur sich auf die Extraktion von Begriffen und N-Grammen konzentriert; eine anspruchsvollere Extraktion benannter Entitäten würde spezifischere CAS-Text-Mining-Aktionen oder andere Module von SAS Text Analytics erfordern.
Kopiert!
1CAS;
2LIBNAME mycas cas;
3 
4DATA mycas.docs_adv;
5 INFILE DATALINES dlm='|';
6 INPUT doc_id $ text $200.;
7DATALINES;
81|La conférence SAS Global Forum 2024 a présenté des innovations en intelligence artificielle.
92|Dr. John Smith, expert en machine learning, a donné une présentation clé sur l'analyse de sentiments.
103|Le siège social de SAS est à Cary, en Caroline du Nord, USA.
11;
12run;
13 
14proc textmine data=mycas.docs_adv;
15 id doc_id;
16 text text;
17 outngram out=mycas.ngrams;
18 run;
19quit;
20 
21proc print data=mycas.ngrams;
22 title "N-grammes extraits";
23RUN;
4 Codeblock
CAS Action (textmining.sastoken) Data
Erklärung :
Dieses Beispiel veranschaulicht einen direkteren Ansatz für das Text Mining in der SAS Viya Umgebung unter Verwendung der CAS-Aktion `sastoken`. Diese Aktion ist eine der grundlegenden Komponenten, die die TEXTMINE-Prozedur im Hintergrund verwendet. Sie ermöglicht eine effiziente Tokenisierung und Normalisierung von Textdaten direkt auf dem CAS-Server und demonstriert die Leistungsfähigkeit der verteilten Verarbeitung für große Mengen von Textdaten.
Kopiert!
1CAS;
2/* Création d'une session CAS */
3cas sess;
4 
5/* Chargement des données dans CAS */
6DATA mycas.cas_data;
7 INFILE DATALINES dlm='|';
8 INPUT doc_id $ text $100.;
9DATALINES;
101|Le traitement du langage naturel est une branche de l'intelligence artificielle.
112|L'IA et le machine learning transforment l'industrie de la technologie.
123|SAS Viya est une plateforme d'analyse unifiée pour les données et l'IA.
13;
14run;
15 
16/* Utilisation de l'ACTION CAS 'sastoken' pour la tokenisation */
17PROC CAS;
18 textmining.sastoken /
19 caslib='mycas'
20 textinput={
21 caslib='mycas',
22 name='cas_data',
23 id={'doc_id'},
24 text={'text'}
25 }
26 casout={
27 caslib='mycas',
28 name='tokens_cas',
29 replace=TRUE
30 };
31RUN;
32QUIT;
33 
34/* Afficher les tokens générés par l'action CAS */
35PROC PRINT DATA=mycas.tokens_cas;
36 title "Tokens générés par l'ACTION CAS sastoken";
37RUN;
Dieses Material wird von We Are Cas "wie besehen" zur Verfügung gestellt. Es gibt keine ausdrücklichen oder stillschweigenden Garantien hinsichtlich der Marktgängigkeit oder Eignung für einen bestimmten Zweck in Bezug auf die hierin enthaltenen Materialien oder Codes. We Are Cas ist nicht verantwortlich für Fehler in diesem Material, wie es jetzt existiert oder existieren wird, noch bietet We Are Cas technischen Support dafür an.
Urheberrechtsinformationen : Copyright © SAS Institute Inc. All rights reserved.