brTrain - WeAreCAS

Q: ¿Cuál es el propósito de la acción brTrain?

La acción `brTrain` se utiliza para extraer reglas booleanas a partir de datos de texto.

Q: ¿Qué tablas de entrada son necesarias para la acción brTrain?

La tabla de entrada principal, especificada por el parámetro `table`, es obligatoria y contiene los datos para la extracción de reglas. Adicionalmente, se pueden especificar una tabla de información de documentos (`docInfo`) y una tabla de información de términos (`termInfo`).

Q: ¿Cuáles son las tablas de salida que puede generar brTrain?

La acción `brTrain` puede generar tres tablas de salida a través del parámetro `casOuts`: `rules` (que contiene las reglas generadas para cada categoría), `ruleTerms` (que contiene los términos en cada regla generada) y `candidateTerms` (que contiene los términos seleccionados para la creación de reglas).

Q: ¿Qué controla el parámetro gPositive?

El parámetro `gPositive` (alias: `gPos`) especifica la puntuación g (g-score) mínima necesaria para que un término positivo sea considerado para la extracción de reglas. Su valor predeterminado es 8.

Q: ¿Cómo se especifican las variables objetivo para el entrenamiento?

Las variables objetivo se especifican mediante el subparámetro `targets` dentro del parámetro `docInfo`. Este subparámetro acepta una lista con los nombres de las variables que se usarán como objetivo.

Q: ¿Para qué sirven los parámetros maxTriesIn y maxTriesOut?

El parámetro `maxTriesIn` especifica el valor 'k-in' para la búsqueda de los k-mejores en el proceso de conjunto de términos para crear reglas. Por otro lado, `maxTriesOut` especifica el valor 'k-out' para la búsqueda de los k-mejores en el proceso de conjunto de reglas para crear el conjunto de reglas final.

Q: ¿Cuál es el propósito de la acción `brTrain` en el conjunto de acciones `boolRule`?

La acción `brTrain` extrae reglas booleanas a partir de texto. Su función principal es generar un conjunto de reglas que pueden ser utilizadas para clasificar o categorizar documentos basándose en los términos que contienen.

Q: ¿Qué especifica el parámetro `docInfo` en la acción `brTrain`?

El parámetro `docInfo` se utiliza para especificar la información sobre la tabla de documentos. Incluye sub-parámetros como `table` para la tabla de entrada, `id` para la variable de identificación del documento, `targets` para las variables objetivo, `targetType` para el tipo de objetivo (BINARY, MULTICLASS, MULTILABEL), y `events` para los valores considerados como eventos positivos.

Q: ¿Cómo se controla la selección de términos candidatos para la creación de reglas en `brTrain`?

La selección de términos se controla mediante varios parámetros: `gPositive` y `gNegative` establecen la puntuación g mínima para términos positivos y negativos respectivamente. `minSupports` define el número mínimo de documentos en los que un término debe aparecer. Finalmente, `maxCandidates` limita el número de términos candidatos que se seleccionarán para cada categoría.

Q: ¿Qué tablas de salida puede generar la acción `brTrain`?

La acción `brTrain` puede generar tres tablas de salida, especificadas a través del parámetro `casOuts`: 1) `rules`, que contiene las reglas generadas para cada categoría; 2) `ruleTerms`, que detalla los términos dentro de cada regla; y 3) `candidateTerms`, que lista los términos que fueron seleccionados como candidatos para la creación de reglas.

Descripción

La acción `brTrain` del conjunto de acciones `boolRule` extrae reglas booleanas a partir de datos de texto. Esta acción es fundamental en el text mining para descubrir patrones y relaciones en grandes volúmenes de documentos, permitiendo la creación de modelos de clasificación basados en la presencia o ausencia de términos específicos.

proc cas; boolRule.brTrain table={...} docId="variable-name" termId="variable-name" docInfo={...} termInfo={...} <gNegative=double> <gPositive=double> <maxCandidates=integer> <maxTriesIn=integer> <maxTriesOut=integer> <minSupports=integer> <mNegative=integer> <mPositive=integer> <nThreads=integer> <casOuts={...}> <useOldNames=boolean>; run;

Parámetros

Parámetro	Descripción
table	Especifica la tabla de datos de entrada para la extracción de reglas.
docId	Especifica la variable en la tabla de entrada que contiene el ID del documento.
termId	Especifica la variable en la tabla de entrada que contiene el ID del término.
docInfo	Especifica la información sobre la tabla de documentos, incluyendo la tabla en sí, el ID del documento y las variables objetivo.
termInfo	Especifica la información sobre la tabla de términos, incluyendo la tabla, el ID del término y la etiqueta del término.
gNegative	Especifica la puntuación g mínima necesaria para que un término negativo sea considerado para la extracción de reglas. El valor predeterminado es 8.
gPositive	Especifica la puntuación g mínima necesaria para un término positivo. El valor predeterminado es 8.
maxCandidates	Especifica el número de términos candidatos a ser seleccionados para cada categoría. El valor predeterminado es 500.
maxTriesIn	Especifica el valor k-in para la búsqueda k-best en el proceso de conjunto de términos para crear reglas. El valor predeterminado es 150.
maxTriesOut	Especifica el valor k-out para la búsqueda k-best en el proceso de conjunto de reglas para crear un conjunto de reglas. El valor predeterminado es 50.
minSupports	Especifica el número mínimo de documentos en los que un término debe aparecer para que se utilice en la creación de una regla. El valor predeterminado es 3.
mNegative	Especifica el valor m para calcular la precisión estimada para los términos negativos. El valor predeterminado es 4.
mPositive	Especifica el valor m para calcular la precisión estimada para los términos positivos. El valor predeterminado es 2.
nThreads	Especifica el número de hilos a utilizar por nodo.
casOuts	Especifica las tablas de datos de salida que contendrán los resultados, como las reglas, los términos de las reglas y los términos candidatos.
useOldNames	Especifica si se deben usar los nombres de variables antiguos utilizados en el procedimiento HPBOOLRULE. El valor predeterminado es Falso.

Preparación de datos Ver hoja de preparación de datos

Creación de Datos de Ejemplo

Se crean tres tablas: `mycas.doc_info` con la información de los documentos y sus categorías, `mycas.term_doc` que mapea términos a documentos, y `mycas.term_info` con los detalles de los términos. Estos datos simulan un escenario de clasificación de texto donde se busca extraer reglas para identificar si un documento pertenece a la categoría 'sports'.

¡Copiado!

1	DATA mycas.doc_info; INFILE DATALINES delimiter=','; INPUT docid varchar(10) category varchar(10); DATALINES;
2	1,sports
3	2,other
4	3,sports
5	4,other
6	5,sports
7	;
8	RUN;
9	DATA mycas.term_doc; INFILE DATALINES delimiter=','; INPUT _document_ varchar(10) _termnum_ varchar(10); DATALINES;
10	1,1
11	1,2
12	2,3
13	2,4
14	3,1
15	3,5
16	4,4
17	4,6
18	5,2
19	5,5
20	;
21	RUN;
22	DATA mycas.term_info; INFILE DATALINES delimiter=','; INPUT term_id varchar(10) term_label varchar(20); DATALINES;
23	1,basketball
24	2,score
25	3,finance
26	4,market
27	5,game
28	6,trade
29	;
30	RUN;

Ejemplos

Este ejemplo muestra el uso básico de la acción `brTrain` para extraer reglas booleanas. Se utiliza la tabla de documentos y términos creada anteriormente para identificar reglas que clasifican documentos en la categoría 'sports'.

Código SAS® / CAS Código en espera de validación por la comunidad

¡Copiado!

1
2	PROC CAS;
3	ACTION boolRule.brTrain / TABLE={name='term_doc'} docId='_document_' termId='_termnum_' docInfo={TABLE={name='doc_info'}, id='docid', targets={'category'}, targetType='BINARY', events={'sports'}} termInfo={TABLE={name='term_info'}, id='term_id', label='term_label'} casOut={name='rules_output', replace=true};
4
5	RUN;
6
7	QUIT;
8

Resultado :
La acción genera una tabla de salida `rules_output` en la caslib activa, que contiene las reglas booleanas extraídas. También se muestran tablas de resumen sobre el proceso de entrenamiento, como el número de reglas generadas y las estadísticas de los términos candidatos.

Este ejemplo demuestra un uso más avanzado de `brTrain`, ajustando parámetros como `gPositive`, `maxCandidates` y `minSupports` para refinar el proceso de extracción de reglas. Se generan tres tablas de salida: `rules_advanced` para las reglas, `rule_terms_advanced` para los términos de las reglas, y `candidate_terms` para los términos candidatos considerados.

Código SAS® / CAS Código en espera de validación por la comunidad

¡Copiado!

1
2	PROC CAS;
3	ACTION boolRule.brTrain / TABLE={name='term_doc'} docId='_document_' termId='_termnum_' docInfo={TABLE={name='doc_info'}, id='docid', targets={'category'}, targetType='BINARY', events={'sports'}} termInfo={TABLE={name='term_info'}, id='term_id', label='term_label'} gPositive=5 maxCandidates=100 minSupports=1 maxTriesIn=50 maxTriesOut=20 casOut={rules={name='rules_advanced', replace=true}, ruleTerms={name='rule_terms_advanced', replace=true}, candidateTerms={name='candidate_terms', replace=true}};
4
5	RUN;
6
7	QUIT;
8

Resultado :
Se generan tres tablas de salida: `rules_advanced`, `rule_terms_advanced` y `candidate_terms`. Los resultados del entrenamiento, visibles en el log de SAS, mostrarán un proceso de selección de términos y reglas más restrictivo debido a los parámetros ajustados, lo que puede resultar en un conjunto de reglas diferente y potencialmente más específico que en el ejemplo básico.

FAQ

¿Cuál es el propósito de la acción brTrain?

¿Qué tablas de entrada son necesarias para la acción brTrain?

¿Cuáles son las tablas de salida que puede generar brTrain?

¿Qué controla el parámetro gPositive?

¿Cómo se especifican las variables objetivo para el entrenamiento?

¿Para qué sirven los parámetros maxTriesIn y maxTriesOut?

¿Cuál es el propósito de la acción `brTrain` en el conjunto de acciones `boolRule`?

¿Qué especifica el parámetro `docInfo` en la acción `brTrain`?

¿Cómo se controla la selección de términos candidatos para la creación de reglas en `brTrain`?

¿Qué tablas de salida puede generar la acción `brTrain`?

¿Para qué sirven los parámetros `maxTriesIn` y `maxTriesOut`?

Escenarios asociados

Caso de uso

Clasificación Automatizada de Correos de Soporte (Estándar)

Un banco desea automatizar el triaje de correos electrónicos entrantes. El objetivo es identificar mensajes urgentes clasificados como 'Queja' basándose en palabras clave negati...

Ver escenario

Caso de uso

Minería de Texto en Historiales Clínicos Masivos (Rendimiento)

Un hospital universitario procesa millones de notas clínicas históricas. Necesitan extraer reglas complejas para identificar pacientes con 'Riesgo_Alto' de reingreso. Este escen...

Ver escenario

Caso de uso

Detección de Fraude en Transacciones Anómalas (Casos Límite/Borde)

Una aseguradora busca patrones de fraude muy específicos y raros. El desafío es intentar extraer reglas cuando la señal es extremadamente débil (datos dispersos) y los umbrales ...

Ver escenario

Actions associées

boolRule

brScore

La acción `brScore` del conjunto de acciones `boolRule` se utiliza para puntu...

Tabla de contenidos

Descripción

Creación de Datos de Ejemplo

Ejemplos

Ejemplo Básico de Entrenamiento de Reglas Booleanas

Ejemplo Detallado con Parámetros Avanzados

FAQ

Escenarios asociados

Caso de uso

Clasificación Automatizada de Correos de Soporte (Estándar)

Caso de uso

Minería de Texto en Historiales Clínicos Masivos (Rendimiento)

Caso de uso

Detección de Fraude en Transacciones Anómalas (Casos Límite/Borde)

Actions associées

brScore