Les exemples utilisent des données générées (datalines) ou des tables créées via des étapes DATA en mémoire CAS.
1 Bloc de code
PROC TEXTMINE Data
Explication : Cet exemple montre la tokenisation de base d'une petite collection de documents textuels. Il crée une table CAS en mémoire et applique la procédure TEXTMINE pour extraire les termes par défaut.
Copié !
CAS;
libname mycas cas;
data mycas.docs;
infile datalines dlm='|';
input doc_id $ text $100.;
datalines;
1|Ceci est un document sur l'analyse de texte.
2|L'analyse de texte est très utile pour l'exploration de données.
3|SAS Viya offre de puissants outils d'analyse de données.
;
run;
proc textmine data=mycas.docs;
id doc_id;
text text;
run;
quit;
1
CAS;
2
LIBNAME mycas cas;
3
4
DATA mycas.docs;
5
INFILEDATALINES dlm='|';
6
INPUT doc_id $ text $100.;
7
DATALINES;
8
1|Ceci est un document sur l'analyse de texte.
9
2|L'analyse de texte est très utile pour l'exploration de données.
10
3|SAS Viya offre de puissants outils d'analyse de données.
11
;
12
RUN;
13
14
PROC TEXTMINEDATA=mycas.docs;
15
id doc_id;
16
text text;
17
RUN;
18
QUIT;
2 Bloc de code
PROC TEXTMINE Data
Explication : Cet exemple illustre l'utilisation des options courantes de la procédure TEXTMINE. Il filtre les mots vides (stop words) pour ignorer les mots non pertinents et applique la racinisation (stemming) pour réduire les mots à leur forme de base, ce qui est utile pour regrouper les termes et faciliter l'analyse des thèmes.
Copié !
CAS;
libname mycas cas;
data mycas.docs_inter;
infile datalines dlm='|';
input doc_id $ text $200.;
datalines;
1|Les données massives sont importantes pour l'apprentissage automatique et l'analyse prédictive.
2|L'apprentissage automatique et l'intelligence artificielle révolutionnent le traitement des données.
3|Le traitement des données est un domaine clé de l'analyse statistique et de l'intelligence artificielle.
;
run;
proc textmine data=mycas.docs_inter;
id doc_id;
text text;
stoplist / default; /* Utilise une liste de mots vides par défaut */
stemming; /* Applique la racinisation */
run;
quit;
1
CAS;
2
LIBNAME mycas cas;
3
4
DATA mycas.docs_inter;
5
INFILEDATALINES dlm='|';
6
INPUT doc_id $ text $200.;
7
DATALINES;
8
1|Les données massives sont importantes pour l'apprentissage automatique et l'analyse prédictive.
9
2|L'apprentissage automatique et l'intelligence artificielle révolutionnent le traitement des données.
10
3|Le traitement des données est un domaine clé de l'analyse statistique et de l'intelligence artificielle.
11
;
12
RUN;
13
14
PROC TEXTMINEDATA=mycas.docs_inter;
15
id doc_id;
16
text text;
17
stoplist / default; /* Utilise une liste de mots vides par défaut */
18
stemming; /* Applique la racinisation */
19
RUN;
20
QUIT;
3 Bloc de code
PROC TEXTMINE Data
Explication : Cet exemple avancé démontre l'extraction de n-grammes (séquences de mots comme 'intelligence artificielle' ou 'machine learning'). L'option OUTNGRAM génère une table des n-grammes, permettant de capturer des relations sémantiques plus complexes que les mots uniques. Notez que la procédure TEXTMINE se concentre sur l'extraction de termes et de n-grammes; une extraction d'entités nommées plus sophistiquée requerrait des actions CAS de text mining plus spécifiques ou d'autres modules de SAS Text Analytics.
Copié !
CAS;
libname mycas cas;
data mycas.docs_adv;
infile datalines dlm='|';
input doc_id $ text $200.;
datalines;
1|La conférence SAS Global Forum 2024 a présenté des innovations en intelligence artificielle.
2|Dr. John Smith, expert en machine learning, a donné une présentation clé sur l'analyse de sentiments.
3|Le siège social de SAS est à Cary, en Caroline du Nord, USA.
;
run;
proc textmine data=mycas.docs_adv;
id doc_id;
text text;
outngram out=mycas.ngrams;
run;
quit;
proc print data=mycas.ngrams;
title "N-grammes extraits";
run;
1
CAS;
2
LIBNAME mycas cas;
3
4
DATA mycas.docs_adv;
5
INFILEDATALINES dlm='|';
6
INPUT doc_id $ text $200.;
7
DATALINES;
8
1|La conférence SAS Global Forum 2024 a présenté des innovations en intelligence artificielle.
9
2|Dr. John Smith, expert en machine learning, a donné une présentation clé sur l'analyse de sentiments.
10
3|Le siège social de SAS est à Cary, en Caroline du Nord, USA.
11
;
12
run;
13
14
proc textmine data=mycas.docs_adv;
15
id doc_id;
16
text text;
17
outngram out=mycas.ngrams;
18
run;
19
quit;
20
21
proc print data=mycas.ngrams;
22
title "N-grammes extraits";
23
RUN;
4 Bloc de code
CAS Action (textmining.sastoken) Data
Explication : Cet exemple illustre une approche plus directe de la fouille de texte dans l'environnement SAS Viya en utilisant l'action CAS `sastoken`. Cette action est l'un des composants fondamentaux que la procédure TEXTMINE utilise en arrière-plan. Elle permet une tokenisation et une normalisation efficaces des données textuelles directement sur le serveur CAS, démontrant la puissance du traitement distribué pour les grandes masses de données textuelles.
Copié !
CAS;
/* Création d'une session CAS */
cas sess;
/* Chargement des données dans CAS */
data mycas.cas_data;
infile datalines dlm='|';
input doc_id $ text $100.;
datalines;
1|Le traitement du langage naturel est une branche de l'intelligence artificielle.
2|L'IA et le machine learning transforment l'industrie de la technologie.
3|SAS Viya est une plateforme d'analyse unifiée pour les données et l'IA.
;
run;
/* Utilisation de l'action CAS 'sastoken' pour la tokenisation */
proc cas;
textmining.sastoken /
caslib='mycas'
textinput={
caslib='mycas',
name='cas_data',
id={'doc_id'},
text={'text'}
}
casout={
caslib='mycas',
name='tokens_cas',
replace=TRUE
};
run;
quit;
/* Afficher les tokens générés par l'action CAS */
proc print data=mycas.tokens_cas;
title "Tokens générés par l'action CAS sastoken";
run;
1
CAS;
2
/* Création d'une session CAS */
3
cas sess;
4
5
/* Chargement des données dans CAS */
6
DATA mycas.cas_data;
7
INFILEDATALINES dlm='|';
8
INPUT doc_id $ text $100.;
9
DATALINES;
10
1|Le traitement du langage naturel est une branche de l'intelligence artificielle.
11
2|L'IA et le machine learning transforment l'industrie de la technologie.
12
3|SAS Viya est une plateforme d'analyse unifiée pour les données et l'IA.
13
;
14
run;
15
16
/* Utilisation de l'ACTION CAS 'sastoken' pour la tokenisation */
17
PROC CAS;
18
textmining.sastoken /
19
caslib='mycas'
20
textinput={
21
caslib='mycas',
22
name='cas_data',
23
id={'doc_id'},
24
text={'text'}
25
}
26
casout={
27
caslib='mycas',
28
name='tokens_cas',
29
replace=TRUE
30
};
31
RUN;
32
QUIT;
33
34
/* Afficher les tokens générés par l'action CAS */
35
PROC PRINTDATA=mycas.tokens_cas;
36
title "Tokens générés par l'ACTION CAS sastoken";
37
RUN;
Ce matériel est fourni "tel quel" par We Are Cas. Il n'y a aucune garantie, expresse ou implicite, quant à la qualité marchande ou à l'adéquation à un usage particulier concernant le matériel ou le code contenu dans les présentes. We Are Cas n'est pas responsable des erreurs dans ce matériel tel qu'il existe maintenant ou existera, et We Are Cas ne fournit pas de support technique pour celui-ci.
SAS et tous les autres noms de produits ou de services de SAS Institute Inc. sont des marques déposées ou des marques de commerce de SAS Institute Inc. aux États-Unis et dans d'autres pays. ® indique un enregistrement aux États-Unis. WeAreCAS est un site communautaire indépendant et n'est pas affilié à SAS Institute Inc.
Ce site utilise des cookies techniques et analytiques pour améliorer votre expérience.
En savoir plus.