brScore - WeAreCAS

Q: ¿Cuál es el propósito de la acción `brScore` del conjunto de acciones `boolRule`?

La acción `brScore` se utiliza para puntuar datos de texto basándose en un conjunto de reglas booleanas predefinidas. Esencialmente, evalúa si los documentos cumplen con las condiciones especificadas en las reglas.

Q: ¿Cuáles son las tablas de entrada requeridas para ejecutar la acción `brScore`?

Para ejecutar la acción `brScore`, se requieren dos tablas de entrada: 1) el parámetro `table`, que especifica la tabla de datos de entrada que se va a puntuar; y 2) el parámetro `ruleTerms`, que especifica la tabla que contiene los términos de cada regla, generalmente generada por la acción `brTrain`.

Q: ¿Cómo se especifica la tabla de salida en la acción `brScore`?

La tabla de salida se especifica mediante el parámetro `casOut`. Esta tabla contendrá los resultados de la coincidencia de reglas, mostrando qué documentos satisfacen qué reglas.

Q: ¿Qué representan los parámetros `docId` y `termId`?

El parámetro `docId` se usa para especificar la variable en la tabla de entrada que contiene el identificador único del documento (su valor por defecto es '_document_'). Por otro lado, el parámetro `termId` especifica la variable que contiene el identificador del término (su valor por defecto es '_termnum_').

Q: ¿Es posible utilizar nombres de variables heredados de versiones anteriores como HPBOOLRULE?

Sí, es posible. Al establecer el parámetro `useOldNames` en `TRUE`, la acción `brScore` utilizará los nombres de variables antiguos que se usaban en el procedimiento HPBOOLRULE, lo que facilita la compatibilidad con código heredado.

Q: ¿Cuáles son las tablas de entrada requeridas para la acción `brScore`?

La acción `brScore` requiere dos tablas de entrada principales: el parámetro `table`, que especifica la tabla de datos de entrada a puntuar, y el parámetro `ruleTerms`, que especifica la tabla que contiene los términos de cada regla generada por la acción de entrenamiento.

Q: ¿Cómo se especifica la tabla de salida para los resultados de la puntuación?

La tabla de salida se especifica mediante el parámetro `casOut`. Esta tabla contendrá los resultados de la coincidencia de reglas, es decir, indicará qué documentos satisfacen qué reglas.

Q: ¿Para qué sirven los parámetros `docId` y `termId`?

El parámetro `docId` se usa para especificar la variable en la tabla de entrada que contiene el identificador del documento (por defecto, `_document_`). El parámetro `termId` especifica la variable que contiene el identificador del término (por defecto, `_termnum_`).

Q: ¿Qué hace el parámetro `useOldNames`?

El parámetro `useOldNames` (cuyos alias son `legacyName` o `legacyNames`) es un booleano que especifica si se deben usar los nombres de variable antiguos que se utilizaban en el procedimiento HPBOOLRULE. Su valor predeterminado es FALSO.

Descripción

La acción `brScore` del conjunto de acciones `boolRule` se utiliza para puntuar datos de texto aplicando un conjunto de reglas booleanas predefinidas. Estas reglas, generalmente generadas por la acción `brTrain`, se aplican a los documentos de entrada para determinar si cumplen con los criterios especificados. Es una herramienta fundamental en el text mining para categorizar o filtrar documentos según patrones de términos específicos, identificando qué documentos satisfacen qué reglas.

boolRule.brScore result=results status=rc / casOut={...} docId="variable-name" nThreads=integer ruleTerms={...} table={...} termId="variable-name" useOldNames=TRUE | FALSE;

Parámetros

Parámetro	Descripción
casOut	Especifica la tabla de datos de salida que contendrá los resultados de la coincidencia de reglas (si un documento satisface una regla).
docId	Especifica la variable en la tabla de datos de entrada (parámetro `table`) que contiene el ID del documento.
nThreads	Especifica el número de hilos (threads) que se utilizarán por nodo. El valor debe ser un entero.
ruleTerms	Especifica la tabla de datos que contiene los términos de cada regla, generada por la acción de entrenamiento (`brTrain`).
table	Especifica la tabla de datos de entrada que se va a puntuar.
termId	Especifica la variable en la tabla de datos de entrada (parámetro `table`) que contiene el ID del término.
useOldNames	Especifica si se deben usar los nombres de variable antiguos utilizados en el procedimiento HPBOOLRULE.

Preparación de datos Ver hoja de preparación de datos

Creación de Datos de Ejemplo

Primero, creamos dos tablas en CAS. La primera, `text_data`, contiene los datos de texto que queremos puntuar, con un ID de documento y un ID de término. La segunda, `rule_data`, define las reglas booleanas que se aplicarán. Cada fila en `rule_data` representa un término dentro de una regla específica.

¡Copiado!

1	PROC CAS;
2	DATA mycas.text_data;
3	INFILE DATALINES delimiter=',';
4	INPUT docid termid $;
5	DATALINES;
6	1,t1
7	1,t2
8	2,t1
9	2,t3
10	3,t2
11	3,t4
12	;
13	RUN;
14
15	DATA mycas.rule_data;
16	INFILE DATALINES delimiter=',';
17	INPUT _ruleid_ $ _term_ $;
18	DATALINES;
19	R1,t1
20	R1,t2
21	R2,t3
22	R2,t4
23	;
24	RUN;
25	QUIT;

Ejemplos

Este ejemplo utiliza la acción `brScore` para puntuar los documentos en `text_data` basándose en las reglas definidas en `rule_data`. La tabla de salida `scored_documents` contendrá los resultados, indicando qué documentos cumplen con qué reglas.

Código SAS® / CAS Código en espera de validación por la comunidad

¡Copiado!

1	PROC CAS;
2	ACTION boolRule.brScore /
3	TABLE={name='text_data'},
4	docId='docid',
5	termId='termid',
6	ruleTerms={name='rule_data'},
7	casOut={name='scored_documents', replace=true};
8	RUN;
9	QUIT;

Resultado :
La acción se ejecuta correctamente. La tabla `scored_documents` se crea en la caslib `mycas`. Esta tabla contendrá las columnas `_docid_` y `_ruleid_`, mostrando qué regla es satisfecha por cada documento.

En este ejemplo, no solo realizamos la puntuación, sino que también utilizamos la acción `fetch` para mostrar el contenido de la tabla de resultados. Esto nos permite verificar qué documentos coincidieron con las reglas. La regla R1 requiere los términos 't1' Y 't2', mientras que la regla R2 busca 't3' O 't4' (comportamiento por defecto).

Código SAS® / CAS Código en espera de validación por la comunidad

¡Copiado!

1	PROC CAS;
2	ACTION boolRule.brScore /
3	TABLE={name='text_data', vars={'docid', 'termid'}},
4	docId='docid',
5	termId='termid',
6	ruleTerms={name='rule_data', vars={'_ruleid_', '_term_'}},
7	casOut={name='scored_documents_details', replace=true};
8	RUN;
9
10	ACTION TABLE.fetch / TABLE='scored_documents_details';
11	RUN;
12	QUIT;

Resultado :
La salida de la acción `fetch` mostrará las filas de la tabla `scored_documents_details`. Se espera ver que el documento 1 satisface la regla R1 (porque contiene 't1' y 't2'), el documento 2 satisface la regla R2 (porque contiene 't3'), y el documento 3 satisface la regla R2 (porque contiene 't4').

FAQ

¿Cuál es el propósito de la acción `brScore` del conjunto de acciones `boolRule`?

¿Cuáles son las tablas de entrada requeridas para ejecutar la acción `brScore`?

¿Cómo se especifica la tabla de salida en la acción `brScore`?

¿Qué representan los parámetros `docId` y `termId`?

¿Es posible utilizar nombres de variables heredados de versiones anteriores como HPBOOLRULE?

¿Cuál es el propósito de la acción `brScore` en SAS Viya?

¿Cuáles son las tablas de entrada requeridas para la acción `brScore`?

¿Cómo se especifica la tabla de salida para los resultados de la puntuación?

¿Para qué sirven los parámetros `docId` y `termId`?

¿Qué hace el parámetro `useOldNames`?

Escenarios asociados

Caso de uso

Clasificación Automática de Notas Clínicas

Un hospital universitario desea implementar un sistema de triaje automático basado en las notas de enfermería. El objetivo es identificar pacientes que presentan combinaciones d...

Ver escenario

Caso de uso

Categorización Masiva de Inventario (Prueba de Rendimiento)

Un gigante del comercio electrónico necesita procesar diariamente catálogos de millones de productos. El equipo de Data Engineering quiere validar que la acción `brScore` puede ...

Ver escenario

Caso de uso

Revisión de Contratos con Esquema Heredado (Edge Case)

Una firma legal está migrando su sistema de análisis de riesgos a SAS Viya. Sus datos provienen de un sistema mainframe antiguo donde los nombres de las columnas no son estándar...

Ver escenario

Actions associées

boolRule

brTrain

La acción `brTrain` del conjunto de acciones `boolRule` extrae reglas boolean...

Tabla de contenidos

Descripción

Creación de Datos de Ejemplo

Ejemplos

Puntuación Básica de Documentos

Puntuación y Visualización de Resultados

FAQ

Escenarios asociados

Caso de uso

Clasificación Automática de Notas Clínicas

Caso de uso

Categorización Masiva de Inventario (Prueba de Rendimiento)

Caso de uso

Revisión de Contratos con Esquema Heredado (Edge Case)

Actions associées

brTrain