Los ejemplos utilizan datos generados (datalines) o tablas creadas a través de pasos DATA en memoria CAS.
1 Bloque de código
PROC TEXTMINE Data
Explicación : Este ejemplo muestra la tokenización básica de una pequeña colección de documentos textuales. Crea una tabla CAS en memoria y aplica el procedimiento TEXTMINE para extraer los términos por defecto.
¡Copiado!
CAS;
libname mycas cas;
data mycas.docs;
infile datalines dlm='|';
input doc_id $ text $100.;
datalines;
1|Ceci est un document sur l'analyse de texte.
2|L'analyse de texte est très utile pour l'exploration de données.
3|SAS Viya offre de puissants outils d'analyse de données.
;
run;
proc textmine data=mycas.docs;
id doc_id;
text text;
run;
quit;
1
CAS;
2
LIBNAME mycas cas;
3
4
DATA mycas.docs;
5
INFILEDATALINES dlm='|';
6
INPUT doc_id $ text $100.;
7
DATALINES;
8
1|Ceci est un document sur l'analyse de texte.
9
2|L'analyse de texte est très utile pour l'exploration de données.
10
3|SAS Viya offre de puissants outils d'analyse de données.
11
;
12
RUN;
13
14
PROC TEXTMINEDATA=mycas.docs;
15
id doc_id;
16
text text;
17
RUN;
18
QUIT;
2 Bloque de código
PROC TEXTMINE Data
Explicación : Este ejemplo ilustra el uso de las opciones comunes del procedimiento TEXTMINE. Filtra las palabras vacías (stop words) para ignorar las palabras irrelevantes y aplica la derivación (stemming) para reducir las palabras a su forma base, lo cual es útil para agrupar términos y facilitar el análisis de temas.
¡Copiado!
CAS;
libname mycas cas;
data mycas.docs_inter;
infile datalines dlm='|';
input doc_id $ text $200.;
datalines;
1|Les données massives sont importantes pour l'apprentissage automatique et l'analyse prédictive.
2|L'apprentissage automatique et l'intelligence artificielle révolutionnent le traitement des données.
3|Le traitement des données est un domaine clé de l'analyse statistique et de l'intelligence artificielle.
;
run;
proc textmine data=mycas.docs_inter;
id doc_id;
text text;
stoplist / default; /* Utilise une liste de mots vides par défaut */
stemming; /* Applique la racinisation */
run;
quit;
1
CAS;
2
LIBNAME mycas cas;
3
4
DATA mycas.docs_inter;
5
INFILEDATALINES dlm='|';
6
INPUT doc_id $ text $200.;
7
DATALINES;
8
1|Les données massives sont importantes pour l'apprentissage automatique et l'analyse prédictive.
9
2|L'apprentissage automatique et l'intelligence artificielle révolutionnent le traitement des données.
10
3|Le traitement des données est un domaine clé de l'analyse statistique et de l'intelligence artificielle.
11
;
12
RUN;
13
14
PROC TEXTMINEDATA=mycas.docs_inter;
15
id doc_id;
16
text text;
17
stoplist / default; /* Utilise une liste de mots vides par défaut */
18
stemming; /* Applique la racinisation */
19
RUN;
20
QUIT;
3 Bloque de código
PROC TEXTMINE Data
Explicación : Este ejemplo avanzado demuestra la extracción de n-gramas (secuencias de palabras como 'inteligencia artificial' o 'machine learning'). La opción OUTNGRAM genera una tabla de los n-gramas, permitiendo capturar relaciones semánticas más complejas que las palabras únicas. Tenga en cuenta que el procedimiento TEXTMINE se centra en la extracción de términos y n-gramas; una extracción de entidades nombradas más sofisticada requeriría acciones CAS de minería de texto más específicas u otros módulos de SAS Text Analytics.
¡Copiado!
CAS;
libname mycas cas;
data mycas.docs_adv;
infile datalines dlm='|';
input doc_id $ text $200.;
datalines;
1|La conférence SAS Global Forum 2024 a présenté des innovations en intelligence artificielle.
2|Dr. John Smith, expert en machine learning, a donné une présentation clé sur l'analyse de sentiments.
3|Le siège social de SAS est à Cary, en Caroline du Nord, USA.
;
run;
proc textmine data=mycas.docs_adv;
id doc_id;
text text;
outngram out=mycas.ngrams;
run;
quit;
proc print data=mycas.ngrams;
title "N-grammes extraits";
run;
1
CAS;
2
LIBNAME mycas cas;
3
4
DATA mycas.docs_adv;
5
INFILEDATALINES dlm='|';
6
INPUT doc_id $ text $200.;
7
DATALINES;
8
1|La conférence SAS Global Forum 2024 a présenté des innovations en intelligence artificielle.
9
2|Dr. John Smith, expert en machine learning, a donné une présentation clé sur l'analyse de sentiments.
10
3|Le siège social de SAS est à Cary, en Caroline du Nord, USA.
11
;
12
run;
13
14
proc textmine data=mycas.docs_adv;
15
id doc_id;
16
text text;
17
outngram out=mycas.ngrams;
18
run;
19
quit;
20
21
proc print data=mycas.ngrams;
22
title "N-grammes extraits";
23
RUN;
4 Bloque de código
CAS Action (textmining.sastoken) Data
Explicación : Este ejemplo ilustra un enfoque más directo de la minería de texto en el entorno SAS Viya utilizando la acción CAS `sastoken`. Esta acción es uno de los componentes fundamentales que el procedimiento TEXTMINE utiliza en segundo plano. Permite una tokenización y normalización eficientes de los datos textuales directamente en el servidor CAS, demostrando la potencia del procesamiento distribuido para grandes volúmenes de datos textuales.
¡Copiado!
CAS;
/* Création d'une session CAS */
cas sess;
/* Chargement des données dans CAS */
data mycas.cas_data;
infile datalines dlm='|';
input doc_id $ text $100.;
datalines;
1|Le traitement du langage naturel est une branche de l'intelligence artificielle.
2|L'IA et le machine learning transforment l'industrie de la technologie.
3|SAS Viya est une plateforme d'analyse unifiée pour les données et l'IA.
;
run;
/* Utilisation de l'action CAS 'sastoken' pour la tokenisation */
proc cas;
textmining.sastoken /
caslib='mycas'
textinput={
caslib='mycas',
name='cas_data',
id={'doc_id'},
text={'text'}
}
casout={
caslib='mycas',
name='tokens_cas',
replace=TRUE
};
run;
quit;
/* Afficher les tokens générés par l'action CAS */
proc print data=mycas.tokens_cas;
title "Tokens générés par l'action CAS sastoken";
run;
1
CAS;
2
/* Création d'une session CAS */
3
cas sess;
4
5
/* Chargement des données dans CAS */
6
DATA mycas.cas_data;
7
INFILEDATALINES dlm='|';
8
INPUT doc_id $ text $100.;
9
DATALINES;
10
1|Le traitement du langage naturel est une branche de l'intelligence artificielle.
11
2|L'IA et le machine learning transforment l'industrie de la technologie.
12
3|SAS Viya est une plateforme d'analyse unifiée pour les données et l'IA.
13
;
14
run;
15
16
/* Utilisation de l'ACTION CAS 'sastoken' pour la tokenisation */
17
PROC CAS;
18
textmining.sastoken /
19
caslib='mycas'
20
textinput={
21
caslib='mycas',
22
name='cas_data',
23
id={'doc_id'},
24
text={'text'}
25
}
26
casout={
27
caslib='mycas',
28
name='tokens_cas',
29
replace=TRUE
30
};
31
RUN;
32
QUIT;
33
34
/* Afficher les tokens générés par l'action CAS */
35
PROC PRINTDATA=mycas.tokens_cas;
36
title "Tokens générés par l'ACTION CAS sastoken";
37
RUN;
Este material se proporciona "tal cual" por We Are Cas. No hay garantías, expresas o implícitas, en cuanto a la comerciabilidad o idoneidad para un propósito particular con respecto a los materiales o el código contenidos en este documento. We Are Cas no es responsable de los errores en este material tal como existe ahora o existirá, ni We Are Cas proporciona soporte técnico para el mismo.
SAS y todos los demás nombres de productos o servicios de SAS Institute Inc. son marcas registradas o marcas comerciales de SAS Institute Inc. en los EE. UU. y otros países. ® indica registro en los EE. UU. WeAreCAS es un sitio comunitario independiente y no está afiliado a SAS Institute Inc.
Este sitio utiliza cookies técnicas y analíticas para mejorar su experiencia.
Saber más.