Die Beispiele verwenden generierte Daten (Datalines) oder Tabellen, die über DATA-Schritte im CAS-Speicher erstellt wurden.
1 Codeblock
PROC TEXTMINE Data
Erklärung : Dieses Beispiel zeigt die grundlegende Tokenisierung einer kleinen Sammlung von Textdokumenten. Es erstellt eine CAS-Tabelle im Speicher und wendet die TEXTMINE-Prozedur an, um die Standardbegriffe zu extrahieren.
Kopiert!
CAS;
libname mycas cas;
data mycas.docs;
infile datalines dlm='|';
input doc_id $ text $100.;
datalines;
1|Ceci est un document sur l'analyse de texte.
2|L'analyse de texte est très utile pour l'exploration de données.
3|SAS Viya offre de puissants outils d'analyse de données.
;
run;
proc textmine data=mycas.docs;
id doc_id;
text text;
run;
quit;
1
CAS;
2
LIBNAME mycas cas;
3
4
DATA mycas.docs;
5
INFILEDATALINES dlm='|';
6
INPUT doc_id $ text $100.;
7
DATALINES;
8
1|Ceci est un document sur l'analyse de texte.
9
2|L'analyse de texte est très utile pour l'exploration de données.
10
3|SAS Viya offre de puissants outils d'analyse de données.
11
;
12
RUN;
13
14
PROC TEXTMINEDATA=mycas.docs;
15
id doc_id;
16
text text;
17
RUN;
18
QUIT;
2 Codeblock
PROC TEXTMINE Data
Erklärung : Dieses Beispiel veranschaulicht die Verwendung der gängigen Optionen des TEXTMINE-Verfahrens. Es filtert Stoppwörter (Stop Words), um irrelevante Wörter zu ignorieren, und wendet die Stammformreduktion (Stemming) an, um Wörter auf ihre Grundform zu reduzieren, was nützlich ist, um Begriffe zu gruppieren und die Themenanalyse zu erleichtern.
Kopiert!
CAS;
libname mycas cas;
data mycas.docs_inter;
infile datalines dlm='|';
input doc_id $ text $200.;
datalines;
1|Les données massives sont importantes pour l'apprentissage automatique et l'analyse prédictive.
2|L'apprentissage automatique et l'intelligence artificielle révolutionnent le traitement des données.
3|Le traitement des données est un domaine clé de l'analyse statistique et de l'intelligence artificielle.
;
run;
proc textmine data=mycas.docs_inter;
id doc_id;
text text;
stoplist / default; /* Utilise une liste de mots vides par défaut */
stemming; /* Applique la racinisation */
run;
quit;
1
CAS;
2
LIBNAME mycas cas;
3
4
DATA mycas.docs_inter;
5
INFILEDATALINES dlm='|';
6
INPUT doc_id $ text $200.;
7
DATALINES;
8
1|Les données massives sont importantes pour l'apprentissage automatique et l'analyse prédictive.
9
2|L'apprentissage automatique et l'intelligence artificielle révolutionnent le traitement des données.
10
3|Le traitement des données est un domaine clé de l'analyse statistique et de l'intelligence artificielle.
11
;
12
RUN;
13
14
PROC TEXTMINEDATA=mycas.docs_inter;
15
id doc_id;
16
text text;
17
stoplist / default; /* Utilise une liste de mots vides par défaut */
18
stemming; /* Applique la racinisation */
19
RUN;
20
QUIT;
3 Codeblock
PROC TEXTMINE Data
Erklärung : Dieses fortgeschrittene Beispiel demonstriert die Extraktion von N-Grammen (Wortsequenzen wie 'künstliche Intelligenz' oder 'maschinelles Lernen'). Die Option OUTNGRAM generiert eine Tabelle der N-Gramme, die es ermöglicht, komplexere semantische Beziehungen als einzelne Wörter zu erfassen. Beachten Sie, dass die TEXTMINE-Prozedur sich auf die Extraktion von Begriffen und N-Grammen konzentriert; eine anspruchsvollere Extraktion benannter Entitäten würde spezifischere CAS-Text-Mining-Aktionen oder andere Module von SAS Text Analytics erfordern.
Kopiert!
CAS;
libname mycas cas;
data mycas.docs_adv;
infile datalines dlm='|';
input doc_id $ text $200.;
datalines;
1|La conférence SAS Global Forum 2024 a présenté des innovations en intelligence artificielle.
2|Dr. John Smith, expert en machine learning, a donné une présentation clé sur l'analyse de sentiments.
3|Le siège social de SAS est à Cary, en Caroline du Nord, USA.
;
run;
proc textmine data=mycas.docs_adv;
id doc_id;
text text;
outngram out=mycas.ngrams;
run;
quit;
proc print data=mycas.ngrams;
title "N-grammes extraits";
run;
1
CAS;
2
LIBNAME mycas cas;
3
4
DATA mycas.docs_adv;
5
INFILEDATALINES dlm='|';
6
INPUT doc_id $ text $200.;
7
DATALINES;
8
1|La conférence SAS Global Forum 2024 a présenté des innovations en intelligence artificielle.
9
2|Dr. John Smith, expert en machine learning, a donné une présentation clé sur l'analyse de sentiments.
10
3|Le siège social de SAS est à Cary, en Caroline du Nord, USA.
11
;
12
run;
13
14
proc textmine data=mycas.docs_adv;
15
id doc_id;
16
text text;
17
outngram out=mycas.ngrams;
18
run;
19
quit;
20
21
proc print data=mycas.ngrams;
22
title "N-grammes extraits";
23
RUN;
4 Codeblock
CAS Action (textmining.sastoken) Data
Erklärung : Dieses Beispiel veranschaulicht einen direkteren Ansatz für das Text Mining in der SAS Viya Umgebung unter Verwendung der CAS-Aktion `sastoken`. Diese Aktion ist eine der grundlegenden Komponenten, die die TEXTMINE-Prozedur im Hintergrund verwendet. Sie ermöglicht eine effiziente Tokenisierung und Normalisierung von Textdaten direkt auf dem CAS-Server und demonstriert die Leistungsfähigkeit der verteilten Verarbeitung für große Mengen von Textdaten.
Kopiert!
CAS;
/* Création d'une session CAS */
cas sess;
/* Chargement des données dans CAS */
data mycas.cas_data;
infile datalines dlm='|';
input doc_id $ text $100.;
datalines;
1|Le traitement du langage naturel est une branche de l'intelligence artificielle.
2|L'IA et le machine learning transforment l'industrie de la technologie.
3|SAS Viya est une plateforme d'analyse unifiée pour les données et l'IA.
;
run;
/* Utilisation de l'action CAS 'sastoken' pour la tokenisation */
proc cas;
textmining.sastoken /
caslib='mycas'
textinput={
caslib='mycas',
name='cas_data',
id={'doc_id'},
text={'text'}
}
casout={
caslib='mycas',
name='tokens_cas',
replace=TRUE
};
run;
quit;
/* Afficher les tokens générés par l'action CAS */
proc print data=mycas.tokens_cas;
title "Tokens générés par l'action CAS sastoken";
run;
1
CAS;
2
/* Création d'une session CAS */
3
cas sess;
4
5
/* Chargement des données dans CAS */
6
DATA mycas.cas_data;
7
INFILEDATALINES dlm='|';
8
INPUT doc_id $ text $100.;
9
DATALINES;
10
1|Le traitement du langage naturel est une branche de l'intelligence artificielle.
11
2|L'IA et le machine learning transforment l'industrie de la technologie.
12
3|SAS Viya est une plateforme d'analyse unifiée pour les données et l'IA.
13
;
14
run;
15
16
/* Utilisation de l'ACTION CAS 'sastoken' pour la tokenisation */
17
PROC CAS;
18
textmining.sastoken /
19
caslib='mycas'
20
textinput={
21
caslib='mycas',
22
name='cas_data',
23
id={'doc_id'},
24
text={'text'}
25
}
26
casout={
27
caslib='mycas',
28
name='tokens_cas',
29
replace=TRUE
30
};
31
RUN;
32
QUIT;
33
34
/* Afficher les tokens générés par l'action CAS */
35
PROC PRINTDATA=mycas.tokens_cas;
36
title "Tokens générés par l'ACTION CAS sastoken";
37
RUN;
Dieses Material wird von We Are Cas "wie besehen" zur Verfügung gestellt. Es gibt keine ausdrücklichen oder stillschweigenden Garantien hinsichtlich der Marktgängigkeit oder Eignung für einen bestimmten Zweck in Bezug auf die hierin enthaltenen Materialien oder Codes. We Are Cas ist nicht verantwortlich für Fehler in diesem Material, wie es jetzt existiert oder existieren wird, noch bietet We Are Cas technischen Support dafür an.
SAS und alle anderen Produkt- oder Dienstleistungsnamen von SAS Institute Inc. sind eingetragene Marken oder Marken von SAS Institute Inc. in den USA und anderen Ländern. ® zeigt die Registrierung in den USA an. WeAreCAS ist eine unabhängige Community-Site und nicht mit SAS Institute Inc. verbunden.
Diese Website verwendet technische und analytische Cookies, um Ihre Erfahrung zu verbessern.
Mehr erfahren.