El procedimiento TEXTMINE

El procedimiento TEXTMINE en SAS^© Viya^™ 4 es una herramienta potente para el análisis de datos textuales. Se integra con el motor Cloud Analytic Services (CAS) para procesar grandes volúmenes de texto. Las funcionalidades clave incluyen: la tokenización (dividir el texto en palabras o frases), el filtrado de palabras vacías (stop words), la lematización/derivación (stemming), la extracción de n-gramas, el análisis de las partes del discurso (Part-of-Speech - POS) y la extracción de entidades nombradas. Transforma el texto no estructurado en una representación numérica (por ejemplo, matriz de términos-documentos) que luego puede utilizarse para tareas de modelado predictivo o clustering. La ejecución del procedimiento se realiza completamente en el servidor CAS, beneficiándose de la capacidad de procesamiento distribuido en memoria.

Análisis de datos

Type : CREATION_INTERNE

Los ejemplos utilizan datos generados (datalines) o tablas creadas a través de pasos DATA en memoria CAS.

1 Bloque de código

PROC TEXTMINE Data

Explicación :
Este ejemplo muestra la tokenización básica de una pequeña colección de documentos textuales. Crea una tabla CAS en memoria y aplica el procedimiento TEXTMINE para extraer los términos por defecto.

¡Copiado!

1	CAS;
2	LIBNAME mycas cas;
3
4	DATA mycas.docs;
5	INFILE DATALINES dlm='\|';
6	INPUT doc_id $ text $100.;
7	DATALINES;
8	1\|Ceci est un document sur l'analyse de texte.
9	2\|L'analyse de texte est très utile pour l'exploration de données.
10	3\|SAS Viya offre de puissants outils d'analyse de données.
11	;
12	RUN;
13
14	PROC TEXTMINE DATA=mycas.docs;
15	id doc_id;
16	text text;
17	RUN;
18	QUIT;

2 Bloque de código

PROC TEXTMINE Data

Explicación :
Este ejemplo ilustra el uso de las opciones comunes del procedimiento TEXTMINE. Filtra las palabras vacías (stop words) para ignorar las palabras irrelevantes y aplica la derivación (stemming) para reducir las palabras a su forma base, lo cual es útil para agrupar términos y facilitar el análisis de temas.

¡Copiado!

1	CAS;
2	LIBNAME mycas cas;
3
4	DATA mycas.docs_inter;
5	INFILE DATALINES dlm='\|';
6	INPUT doc_id $ text $200.;
7	DATALINES;
8	1\|Les données massives sont importantes pour l'apprentissage automatique et l'analyse prédictive.
9	2\|L'apprentissage automatique et l'intelligence artificielle révolutionnent le traitement des données.
10	3\|Le traitement des données est un domaine clé de l'analyse statistique et de l'intelligence artificielle.
11	;
12	RUN;
13
14	PROC TEXTMINE DATA=mycas.docs_inter;
15	id doc_id;
16	text text;
17	stoplist / default; /* Utilise une liste de mots vides par défaut */
18	stemming; /* Applique la racinisation */
19	RUN;
20	QUIT;

3 Bloque de código

PROC TEXTMINE Data

Explicación :
Este ejemplo avanzado demuestra la extracción de n-gramas (secuencias de palabras como 'inteligencia artificial' o 'machine learning'). La opción OUTNGRAM genera una tabla de los n-gramas, permitiendo capturar relaciones semánticas más complejas que las palabras únicas. Tenga en cuenta que el procedimiento TEXTMINE se centra en la extracción de términos y n-gramas; una extracción de entidades nombradas más sofisticada requeriría acciones CAS de minería de texto más específicas u otros módulos de SAS Text Analytics.

¡Copiado!

1	CAS;
2	LIBNAME mycas cas;
3
4	DATA mycas.docs_adv;
5	INFILE DATALINES dlm='\|';
6	INPUT doc_id $ text $200.;
7	DATALINES;
8	1\|La conférence SAS Global Forum 2024 a présenté des innovations en intelligence artificielle.
9	2\|Dr. John Smith, expert en machine learning, a donné une présentation clé sur l'analyse de sentiments.
10	3\|Le siège social de SAS est à Cary, en Caroline du Nord, USA.
11	;
12	run;
13
14	proc textmine data=mycas.docs_adv;
15	id doc_id;
16	text text;
17	outngram out=mycas.ngrams;
18	run;
19	quit;
20
21	proc print data=mycas.ngrams;
22	title "N-grammes extraits";
23	RUN;

4 Bloque de código

CAS Action (textmining.sastoken) Data

Explicación :
Este ejemplo ilustra un enfoque más directo de la minería de texto en el entorno SAS Viya utilizando la acción CAS `sastoken`. Esta acción es uno de los componentes fundamentales que el procedimiento TEXTMINE utiliza en segundo plano. Permite una tokenización y normalización eficientes de los datos textuales directamente en el servidor CAS, demostrando la potencia del procesamiento distribuido para grandes volúmenes de datos textuales.

¡Copiado!

1	CAS;
2	/* Création d'une session CAS */
3	cas sess;
4
5	/* Chargement des données dans CAS */
6	DATA mycas.cas_data;
7	INFILE DATALINES dlm='\|';
8	INPUT doc_id $ text $100.;
9	DATALINES;
10	1\|Le traitement du langage naturel est une branche de l'intelligence artificielle.
11	2\|L'IA et le machine learning transforment l'industrie de la technologie.
12	3\|SAS Viya est une plateforme d'analyse unifiée pour les données et l'IA.
13	;
14	run;
15
16	/* Utilisation de l'ACTION CAS 'sastoken' pour la tokenisation */
17	PROC CAS;
18	textmining.sastoken /
19	caslib='mycas'
20	textinput={
21	caslib='mycas',
22	name='cas_data',
23	id={'doc_id'},
24	text={'text'}
25	}
26	casout={
27	caslib='mycas',
28	name='tokens_cas',
29	replace=TRUE
30	};
31	RUN;
32	QUIT;
33
34	/* Afficher les tokens générés par l'action CAS */
35	PROC PRINT DATA=mycas.tokens_cas;
36	title "Tokens générés par l'ACTION CAS sastoken";
37	RUN;

Este material se proporciona "tal cual" por We Are Cas. No hay garantías, expresas o implícitas, en cuanto a la comerciabilidad o idoneidad para un propósito particular con respecto a los materiales o el código contenidos en este documento. We Are Cas no es responsable de los errores en este material tal como existe ahora o existirá, ni We Are Cas proporciona soporte técnico para el mismo.

Retour à la liste