Validación Estándar de Transcripción de Llamadas Bancarias

Contexto empresarial

Un banco desea evaluar la precisión de su nuevo modelo de 'Speech-to-Text' para transcribir grabaciones del centro de atención al cliente. Se requiere comparar las transcripciones automáticas (hipótesis) contra las correcciones manuales realizadas por humanos (referencia) para decidir si el modelo pasa a producción.

Sobre el conjunto : langModel

Gestión de grandes modelos de lenguaje (LLM) y PNL.

Descubrir todas las acciones de langModel

Preparación de datos

Creación de un conjunto de datos pequeño con casos típicos de errores: sustitución, inserción y eliminación.

¡Copiado!

1	DATA casuser.llamadas_ref; LENGTH call_id $ 10 transcript $ 200; INFILE DATALINES delimiter='\|'; INPUT call_id $ transcript $; DATALINES;
2	C001\|quiero consultar mi saldo actual
3	C002\|tengo un problema con mi tarjeta de credito
4	C003\|gracias por su ayuda buenos dias
5	; RUN;
6	DATA casuser.llamadas_hyp; LENGTH call_id $ 10 transcript $ 200; INFILE DATALINES delimiter='\|'; INPUT call_id $ transcript $; DATALINES;
7	C001\|quiero consultar saldo actual
8	C002\|tengo un problema con mi carpeta de credito
9	C003\|gracias por su ayuda buenos dias
10	; RUN;

Étapes de réalisation

Carga de las tablas de referencia y de hipótesis en la memoria CAS.

¡Copiado!

1	/* Los datos se cargan implícitamente mediante el paso
2	DATA anterior ejecutado en la caslib casuser */

Ejecución de la acción especificando explícitamente las columnas de ID y Texto para asegurar el mapeo correcto.

¡Copiado!

1
2	PROC CAS;
3	langModel.calculateErrorRate / reference={name='llamadas_ref', caslib='casuser'} TABLE={name='llamadas_hyp', caslib='casuser'} referenceId='call_id' referenceText='transcript' tableId='call_id' tableText='transcript';
4
5	RUN;
6

Resultado esperado

Se espera una tabla de resultados que muestre: Para C001, una eliminación ('mi'); para C002, una sustitución ('tarjeta' vs 'carpeta'); para C003, una coincidencia perfecta (WER=0). El sistema debe calcular las métricas globales de WER, CER y SER agregadas.

Voir la documentation technique de calculateErrorRate

1	DATA casuser.llamadas_ref; LENGTH call_id $ 10 transcript $ 200; INFILE DATALINES delimiter='\|'; INPUT call_id $ transcript $; DATALINES;
2	C001\|quiero consultar mi saldo actual
3	C002\|tengo un problema con mi tarjeta de credito
4	C003\|gracias por su ayuda buenos dias
5	; RUN;
6	DATA casuser.llamadas_hyp; LENGTH call_id $ 10 transcript $ 200; INFILE DATALINES delimiter='\|'; INPUT call_id $ transcript $; DATALINES;
7	C001\|quiero consultar saldo actual
8	C002\|tengo un problema con mi carpeta de credito
9	C003\|gracias por su ayuda buenos dias
10	; RUN;