calculateErrorRate

Q: ¿Cuál es el propósito de la acción `calculateErrorRate`?

La acción `calculateErrorRate` calcula las tasas de error de caracteres, palabras y oraciones comparando las transcripciones de hipótesis con las transcripciones de referencia. Es una herramienta para evaluar el rendimiento de los sistemas de conversión de voz a texto.

Q: ¿Qué tablas de entrada son necesarias para la acción `calculateErrorRate`?

Se requieren dos tablas de entrada principales: la tabla `reference`, que contiene las transcripciones de referencia (la verdad fundamental), y la tabla `table` (también conocida como `hypothesis`), que contiene las transcripciones hipotéticas generadas por el modelo.

Q: ¿Cómo se especifican las columnas que contienen el texto de referencia y el texto de hipótesis?

Se utilizan los parámetros `referenceText` para la columna de texto en la tabla de referencia y `tableText` (o su alias `hypothesisText`) para la columna de texto en la tabla de hipótesis. Por defecto, la acción asume que es la segunda columna en cada tabla.

Q: ¿Es posible especificar las columnas de ID para unir las tablas de referencia e hipótesis?

Sí, puede usar los parámetros `referenceId` para la tabla de referencia y `tableId` (o su alias `hypothesisId`) para la tabla de hipótesis para especificar las columnas que contienen los identificadores. Por defecto, se utiliza la primera columna de cada tabla.

Q: ¿Qué calcula exactamente la acción `calculateErrorRate`?

La acción calcula varias métricas de error, incluyendo la Tasa de Error de Palabras (WER) y la Tasa de Error de Caracteres (CER), comparando las secuencias de palabras/caracteres de las transcripciones de referencia e hipótesis para determinar inserciones, eliminaciones y sustituciones.

Q: ¿Cuál es el propósito de la acción `langModel.calculateErrorRate`?

La acción `calculateErrorRate` calcula las tasas de error a nivel de caracteres, palabras y oraciones, comparando las transcripciones de una hipótesis con las de una referencia.

Q: ¿Cuáles son las tablas de entrada requeridas para la acción `calculateErrorRate`?

Se requieren dos tablas de entrada: la tabla de `referencia`, que contiene las transcripciones correctas, y la tabla de `hipótesis` (especificada mediante el parámetro `table`), que contiene las transcripciones a evaluar.

Q: ¿Qué especifica el parámetro `reference`?

El parámetro `reference` especifica la tabla que contiene las transcripciones de referencia, es decir, el texto verdadero o de base con el que se comparará la hipótesis.

Q: ¿Cómo se identifican las columnas de texto e ID en las tablas de entrada?

Se utilizan los parámetros `referenceId` y `referenceText` para la tabla de referencia, y `tableId` (alias: `hypothesisId`) y `tableText` (alias: `hypothesisText`) para la tabla de hipótesis. Por defecto, la acción asume que la primera columna es el ID y la segunda es el texto.

Q: ¿Qué representan las tasas de error calculadas por esta acción?

Las tasas de error, como la Tasa de Error de Palabras (WER), miden la precisión de un sistema de reconocimiento de voz. Se calculan contando el número de sustituciones, eliminaciones e inserciones necesarias para alinear el texto de la hipótesis con el texto de referencia, dividido por el número total de palabras en la referencia.

Descripción

Calcula las tasas de error de caracteres, palabras y frases comparando las transcripciones de hipótesis y de referencia. Esta acción es fundamental para evaluar el rendimiento de los modelos de voz a texto (Speech-to-Text).

langModel.calculateErrorRate / reference={...} table={...} <referenceId="nombre-variable"> <referenceText="nombre-variable"> <tableId="nombre-variable"> <tableText="nombre-variable">;

Parámetros

Parámetro	Descripción
reference	Especifica la tabla que contiene las transcripciones de referencia (la verdad fundamental).
table	Especifica la tabla que contiene las transcripciones de hipótesis (el resultado del modelo).
referenceId	Especifica el nombre de la columna en la tabla de referencia que contiene los identificadores. Por defecto, se asume que es la primera columna.
referenceText	Especifica el nombre de la columna en la tabla de referencia que contiene las secuencias de palabras verdaderas. Por defecto, se asume que es la segunda columna.
tableId	Especifica el nombre de la columna en la tabla de hipótesis que contiene los identificadores. Por defecto, se asume que es la primera columna.
tableText	Especifica el nombre de la columna en la tabla de hipótesis que contiene las secuencias de palabras hipotéticas. Por defecto, se asume que es la segunda columna.

Preparación de datos Ver hoja de preparación de datos

Creación de Datos de Ejemplo

Se crean dos tablas en la caslib 'casuser': 'ref_data' para las transcripciones de referencia (la verdad) y 'hyp_data' para las transcripciones de hipótesis (la predicción del modelo). Cada tabla contiene un identificador único y el texto asociado para la comparación.

¡Copiado!

1	DATA casuser.ref_data; LENGTH id $ 10 text $ 100; INFILE DATALINES delimiter=','; INPUT id $ text $; DATALINES;
2	id1,this is a sample
3	id2,another example here
4	; RUN;
5	DATA casuser.hyp_data; LENGTH id $ 10 text $ 100; INFILE DATALINES delimiter=','; INPUT id $ text $; DATALINES;
6	id1,this is sample
7	id2,an other example here
8	; RUN;

Ejemplos

Este ejemplo realiza un cálculo simple de la tasa de error comparando todas las filas de la tabla de hipótesis ('hyp_data') con la tabla de referencia ('ref_data').

Código SAS® / CAS Código en espera de validación por la comunidad

¡Copiado!

1
2	PROC CAS;
3	langmodel.calculateErrorRate / TABLE={name='hyp_data', caslib='casuser'} reference={name='ref_data', caslib='casuser'};
4
5	RUN;
6

Resultado :
La acción devuelve una tabla de resultados que resume las tasas de error a nivel de palabra (WER), carácter (CER) y frase (SER), incluyendo el número de sustituciones, inserciones y eliminaciones.

Este ejemplo especifica explícitamente las columnas a utilizar para los identificadores y el texto en ambas tablas, 'hypothesis' y 'reference', asegurando una correspondencia correcta incluso si el orden de las columnas no es el predeterminado.

Código SAS® / CAS Código en espera de validación por la comunidad

¡Copiado!

1
2	PROC CAS;
3	langmodel.calculateErrorRate / TABLE={name='hyp_data', caslib='casuser'} reference={name='ref_data', caslib='casuser'} tableId='id' tableText='text' referenceId='id' referenceText='text';
4
5	RUN;
6

Resultado :
El resultado es una tabla que detalla las métricas de error (WER, CER, SER). Para 'id1', la referencia 'this is a sample' (4 palabras) se compara con la hipótesis 'this is sample' (3 palabras). Esto resulta en 1 eliminación ('a'), llevando a un WER de (1/4) = 25% para esa frase. Para 'id2', la referencia 'another example here' se compara con 'an other example here', resultando en 1 sustitución y 1 inserción, lo que lleva a un WER de (2/3) = 66.7%. La tabla de resultados agregará estos errores para proporcionar una tasa de error global.

FAQ

¿Cuál es el propósito de la acción `calculateErrorRate`?

¿Qué tablas de entrada son necesarias para la acción `calculateErrorRate`?

¿Cómo se especifican las columnas que contienen el texto de referencia y el texto de hipótesis?

¿Es posible especificar las columnas de ID para unir las tablas de referencia e hipótesis?

¿Qué calcula exactamente la acción `calculateErrorRate`?

¿Cuál es el propósito de la acción `langModel.calculateErrorRate`?

¿Cuáles son las tablas de entrada requeridas para la acción `calculateErrorRate`?

¿Qué especifica el parámetro `reference`?

¿Cómo se identifican las columnas de texto e ID en las tablas de entrada?

¿Qué representan las tasas de error calculadas por esta acción?

Escenarios asociados

Caso de uso

Validación Estándar de Transcripción de Llamadas Bancarias

Un banco desea evaluar la precisión de su nuevo modelo de 'Speech-to-Text' para transcribir grabaciones del centro de atención al cliente. Se requiere comparar las transcripcion...

Ver escenario

Caso de uso

Prueba de Volumen con Archivos de Subtítulos Masivos

Una empresa de medios necesita procesar miles de horas de archivos de video. Antes de desplegar la solución, se debe probar si la acción `calculateErrorRate` puede manejar efici...

Ver escenario

Caso de uso

Manejo de IDs Desalineados y Textos Vacíos

En un entorno de streaming en tiempo real, algunos paquetes de datos se pierden o llegan vacíos. Es crucial verificar cómo se comporta la acción cuando hay IDs en la referencia ...

Ver escenario

Actions associées

langModel

IdentifySpeakers

Este conjunto de acciones proporciona funciones para modelos de lenguaje en s...

langmodel

lmDecode

Decodifica las puntuaciones de la red neuronal recurrente (RNN) utilizando el...

langModel

lmImport

Importa un modelo de lenguaje n-grama. Esta acción es fundamental para prepar...

Tabla de contenidos

Descripción

Creación de Datos de Ejemplo

Ejemplos

Cálculo Básico de la Tasa de Error

Cálculo Detallado con Mapeo de Columnas Específico

FAQ

Escenarios asociados

Caso de uso

Validación Estándar de Transcripción de Llamadas Bancarias

Caso de uso

Prueba de Volumen con Archivos de Subtítulos Masivos

Caso de uso

Manejo de IDs Desalineados y Textos Vacíos

Actions associées

IdentifySpeakers

lmDecode

lmImport