Publicado el :
Análisis Textual CREATION_INTERNE

El procedimiento TEXTMINE

Este código también está disponible en: Deutsch English Français
En espera de validación
El procedimiento TEXTMINE en SAS© Viya 4 es una herramienta potente para el análisis de datos textuales. Se integra con el motor Cloud Analytic Services (CAS) para procesar grandes volúmenes de texto. Las funcionalidades clave incluyen: la tokenización (dividir el texto en palabras o frases), el filtrado de palabras vacías (stop words), la lematización/derivación (stemming), la extracción de n-gramas, el análisis de las partes del discurso (Part-of-Speech - POS) y la extracción de entidades nombradas. Transforma el texto no estructurado en una representación numérica (por ejemplo, matriz de términos-documentos) que luego puede utilizarse para tareas de modelado predictivo o clustering. La ejecución del procedimiento se realiza completamente en el servidor CAS, beneficiándose de la capacidad de procesamiento distribuido en memoria.
Análisis de datos

Type : CREATION_INTERNE


Los ejemplos utilizan datos generados (datalines) o tablas creadas a través de pasos DATA en memoria CAS.

1 Bloque de código
PROC TEXTMINE Data
Explicación :
Este ejemplo muestra la tokenización básica de una pequeña colección de documentos textuales. Crea una tabla CAS en memoria y aplica el procedimiento TEXTMINE para extraer los términos por defecto.
¡Copiado!
1CAS;
2LIBNAME mycas cas;
3 
4DATA mycas.docs;
5 INFILE DATALINES dlm='|';
6 INPUT doc_id $ text $100.;
7DATALINES;
81|Ceci est un document sur l'analyse de texte.
92|L'analyse de texte est très utile pour l'exploration de données.
103|SAS Viya offre de puissants outils d'analyse de données.
11;
12RUN;
13 
14PROC TEXTMINE DATA=mycas.docs;
15 id doc_id;
16 text text;
17 RUN;
18QUIT;
2 Bloque de código
PROC TEXTMINE Data
Explicación :
Este ejemplo ilustra el uso de las opciones comunes del procedimiento TEXTMINE. Filtra las palabras vacías (stop words) para ignorar las palabras irrelevantes y aplica la derivación (stemming) para reducir las palabras a su forma base, lo cual es útil para agrupar términos y facilitar el análisis de temas.
¡Copiado!
1CAS;
2LIBNAME mycas cas;
3 
4DATA mycas.docs_inter;
5 INFILE DATALINES dlm='|';
6 INPUT doc_id $ text $200.;
7DATALINES;
81|Les données massives sont importantes pour l'apprentissage automatique et l'analyse prédictive.
92|L'apprentissage automatique et l'intelligence artificielle révolutionnent le traitement des données.
103|Le traitement des données est un domaine clé de l'analyse statistique et de l'intelligence artificielle.
11;
12RUN;
13 
14PROC TEXTMINE DATA=mycas.docs_inter;
15 id doc_id;
16 text text;
17 stoplist / default; /* Utilise une liste de mots vides par défaut */
18 stemming; /* Applique la racinisation */
19 RUN;
20QUIT;
3 Bloque de código
PROC TEXTMINE Data
Explicación :
Este ejemplo avanzado demuestra la extracción de n-gramas (secuencias de palabras como 'inteligencia artificial' o 'machine learning'). La opción OUTNGRAM genera una tabla de los n-gramas, permitiendo capturar relaciones semánticas más complejas que las palabras únicas. Tenga en cuenta que el procedimiento TEXTMINE se centra en la extracción de términos y n-gramas; una extracción de entidades nombradas más sofisticada requeriría acciones CAS de minería de texto más específicas u otros módulos de SAS Text Analytics.
¡Copiado!
1CAS;
2LIBNAME mycas cas;
3 
4DATA mycas.docs_adv;
5 INFILE DATALINES dlm='|';
6 INPUT doc_id $ text $200.;
7DATALINES;
81|La conférence SAS Global Forum 2024 a présenté des innovations en intelligence artificielle.
92|Dr. John Smith, expert en machine learning, a donné une présentation clé sur l'analyse de sentiments.
103|Le siège social de SAS est à Cary, en Caroline du Nord, USA.
11;
12run;
13 
14proc textmine data=mycas.docs_adv;
15 id doc_id;
16 text text;
17 outngram out=mycas.ngrams;
18 run;
19quit;
20 
21proc print data=mycas.ngrams;
22 title "N-grammes extraits";
23RUN;
4 Bloque de código
CAS Action (textmining.sastoken) Data
Explicación :
Este ejemplo ilustra un enfoque más directo de la minería de texto en el entorno SAS Viya utilizando la acción CAS `sastoken`. Esta acción es uno de los componentes fundamentales que el procedimiento TEXTMINE utiliza en segundo plano. Permite una tokenización y normalización eficientes de los datos textuales directamente en el servidor CAS, demostrando la potencia del procesamiento distribuido para grandes volúmenes de datos textuales.
¡Copiado!
1CAS;
2/* Création d'une session CAS */
3cas sess;
4 
5/* Chargement des données dans CAS */
6DATA mycas.cas_data;
7 INFILE DATALINES dlm='|';
8 INPUT doc_id $ text $100.;
9DATALINES;
101|Le traitement du langage naturel est une branche de l'intelligence artificielle.
112|L'IA et le machine learning transforment l'industrie de la technologie.
123|SAS Viya est une plateforme d'analyse unifiée pour les données et l'IA.
13;
14run;
15 
16/* Utilisation de l'ACTION CAS 'sastoken' pour la tokenisation */
17PROC CAS;
18 textmining.sastoken /
19 caslib='mycas'
20 textinput={
21 caslib='mycas',
22 name='cas_data',
23 id={'doc_id'},
24 text={'text'}
25 }
26 casout={
27 caslib='mycas',
28 name='tokens_cas',
29 replace=TRUE
30 };
31RUN;
32QUIT;
33 
34/* Afficher les tokens générés par l'action CAS */
35PROC PRINT DATA=mycas.tokens_cas;
36 title "Tokens générés par l'ACTION CAS sastoken";
37RUN;
Este material se proporciona "tal cual" por We Are Cas. No hay garantías, expresas o implícitas, en cuanto a la comerciabilidad o idoneidad para un propósito particular con respecto a los materiales o el código contenidos en este documento. We Are Cas no es responsable de los errores en este material tal como existe ahora o existirá, ni We Are Cas proporciona soporte técnico para el mismo.
Información de copyright : Copyright © SAS Institute Inc. All rights reserved.