La procédure TEXTMINE

La procédure TEXTMINE dans SAS^© Viya^™ 4 est un outil puissant pour l'analyse de données textuelles. Elle s'intègre au moteur Cloud Analytic Services (CAS) pour traiter de grands volumes de texte. Les fonctionnalités clés incluent : la tokenisation (découpage du texte en mots ou phrases), le filtrage des mots vides (stop words), la lemmatisation/racinisation (stemming), l'extraction de n-grammes, l'analyse des parties du discours (Part-of-Speech - POS) et l'extraction d'entités nommées. Elle transforme le texte non structuré en une représentation numérique (par exemple, matrice de termes-documents) qui peut ensuite être utilisée pour des tâches de modélisation prédictive ou de clustering. L'exécution de la procédure se fait entièrement sur le serveur CAS, bénéficiant ainsi de la capacité de traitement distribué en mémoire.

Analyse des données

Type : CREATION_INTERNE

Les exemples utilisent des données générées (datalines) ou des tables créées via des étapes DATA en mémoire CAS.

1 Bloc de code

PROC TEXTMINE Data

Explication :
Cet exemple montre la tokenisation de base d'une petite collection de documents textuels. Il crée une table CAS en mémoire et applique la procédure TEXTMINE pour extraire les termes par défaut.

Copié !

1	CAS;
2	LIBNAME mycas cas;
3
4	DATA mycas.docs;
5	INFILE DATALINES dlm='\|';
6	INPUT doc_id $ text $100.;
7	DATALINES;
8	1\|Ceci est un document sur l'analyse de texte.
9	2\|L'analyse de texte est très utile pour l'exploration de données.
10	3\|SAS Viya offre de puissants outils d'analyse de données.
11	;
12	RUN;
13
14	PROC TEXTMINE DATA=mycas.docs;
15	id doc_id;
16	text text;
17	RUN;
18	QUIT;

2 Bloc de code

PROC TEXTMINE Data

Explication :
Cet exemple illustre l'utilisation des options courantes de la procédure TEXTMINE. Il filtre les mots vides (stop words) pour ignorer les mots non pertinents et applique la racinisation (stemming) pour réduire les mots à leur forme de base, ce qui est utile pour regrouper les termes et faciliter l'analyse des thèmes.

Copié !

1	CAS;
2	LIBNAME mycas cas;
3
4	DATA mycas.docs_inter;
5	INFILE DATALINES dlm='\|';
6	INPUT doc_id $ text $200.;
7	DATALINES;
8	1\|Les données massives sont importantes pour l'apprentissage automatique et l'analyse prédictive.
9	2\|L'apprentissage automatique et l'intelligence artificielle révolutionnent le traitement des données.
10	3\|Le traitement des données est un domaine clé de l'analyse statistique et de l'intelligence artificielle.
11	;
12	RUN;
13
14	PROC TEXTMINE DATA=mycas.docs_inter;
15	id doc_id;
16	text text;
17	stoplist / default; /* Utilise une liste de mots vides par défaut */
18	stemming; /* Applique la racinisation */
19	RUN;
20	QUIT;

3 Bloc de code

PROC TEXTMINE Data

Explication :
Cet exemple avancé démontre l'extraction de n-grammes (séquences de mots comme 'intelligence artificielle' ou 'machine learning'). L'option OUTNGRAM génère une table des n-grammes, permettant de capturer des relations sémantiques plus complexes que les mots uniques. Notez que la procédure TEXTMINE se concentre sur l'extraction de termes et de n-grammes; une extraction d'entités nommées plus sophistiquée requerrait des actions CAS de text mining plus spécifiques ou d'autres modules de SAS Text Analytics.

Copié !

1	CAS;
2	LIBNAME mycas cas;
3
4	DATA mycas.docs_adv;
5	INFILE DATALINES dlm='\|';
6	INPUT doc_id $ text $200.;
7	DATALINES;
8	1\|La conférence SAS Global Forum 2024 a présenté des innovations en intelligence artificielle.
9	2\|Dr. John Smith, expert en machine learning, a donné une présentation clé sur l'analyse de sentiments.
10	3\|Le siège social de SAS est à Cary, en Caroline du Nord, USA.
11	;
12	run;
13
14	proc textmine data=mycas.docs_adv;
15	id doc_id;
16	text text;
17	outngram out=mycas.ngrams;
18	run;
19	quit;
20
21	proc print data=mycas.ngrams;
22	title "N-grammes extraits";
23	RUN;

4 Bloc de code

CAS Action (textmining.sastoken) Data

Explication :
Cet exemple illustre une approche plus directe de la fouille de texte dans l'environnement SAS Viya en utilisant l'action CAS `sastoken`. Cette action est l'un des composants fondamentaux que la procédure TEXTMINE utilise en arrière-plan. Elle permet une tokenisation et une normalisation efficaces des données textuelles directement sur le serveur CAS, démontrant la puissance du traitement distribué pour les grandes masses de données textuelles.

Copié !

1	CAS;
2	/* Création d'une session CAS */
3	cas sess;
4
5	/* Chargement des données dans CAS */
6	DATA mycas.cas_data;
7	INFILE DATALINES dlm='\|';
8	INPUT doc_id $ text $100.;
9	DATALINES;
10	1\|Le traitement du langage naturel est une branche de l'intelligence artificielle.
11	2\|L'IA et le machine learning transforment l'industrie de la technologie.
12	3\|SAS Viya est une plateforme d'analyse unifiée pour les données et l'IA.
13	;
14	run;
15
16	/* Utilisation de l'ACTION CAS 'sastoken' pour la tokenisation */
17	PROC CAS;
18	textmining.sastoken /
19	caslib='mycas'
20	textinput={
21	caslib='mycas',
22	name='cas_data',
23	id={'doc_id'},
24	text={'text'}
25	}
26	casout={
27	caslib='mycas',
28	name='tokens_cas',
29	replace=TRUE
30	};
31	RUN;
32	QUIT;
33
34	/* Afficher les tokens générés par l'action CAS */
35	PROC PRINT DATA=mycas.tokens_cas;
36	title "Tokens générés par l'ACTION CAS sastoken";
37	RUN;

Ce matériel est fourni "tel quel" par We Are Cas. Il n'y a aucune garantie, expresse ou implicite, quant à la qualité marchande ou à l'adéquation à un usage particulier concernant le matériel ou le code contenu dans les présentes. We Are Cas n'est pas responsable des erreurs dans ce matériel tel qu'il existe maintenant ou existera, et We Are Cas ne fournit pas de support technique pour celui-ci.

Retour à la liste