langModel calculateErrorRate

Validación Estándar de Transcripción de Llamadas Bancarias

Scénario de test & Cas d'usage

Contexto empresarial

Un banco desea evaluar la precisión de su nuevo modelo de 'Speech-to-Text' para transcribir grabaciones del centro de atención al cliente. Se requiere comparar las transcripciones automáticas (hipótesis) contra las correcciones manuales realizadas por humanos (referencia) para decidir si el modelo pasa a producción.
Sobre el conjunto : langModel

Gestión de grandes modelos de lenguaje (LLM) y PNL.

Descubrir todas las acciones de langModel
Preparación de datos

Creación de un conjunto de datos pequeño con casos típicos de errores: sustitución, inserción y eliminación.

¡Copiado!
1DATA casuser.llamadas_ref; LENGTH call_id $ 10 transcript $ 200; INFILE DATALINES delimiter='|'; INPUT call_id $ transcript $; DATALINES;
2C001|quiero consultar mi saldo actual
3C002|tengo un problema con mi tarjeta de credito
4C003|gracias por su ayuda buenos dias
5; RUN;
6DATA casuser.llamadas_hyp; LENGTH call_id $ 10 transcript $ 200; INFILE DATALINES delimiter='|'; INPUT call_id $ transcript $; DATALINES;
7C001|quiero consultar saldo actual
8C002|tengo un problema con mi carpeta de credito
9C003|gracias por su ayuda buenos dias
10; RUN;

Étapes de réalisation

1
Carga de las tablas de referencia y de hipótesis en la memoria CAS.
¡Copiado!
1/* Los datos se cargan implícitamente mediante el paso
2DATA anterior ejecutado en la caslib casuser */
2
Ejecución de la acción especificando explícitamente las columnas de ID y Texto para asegurar el mapeo correcto.
¡Copiado!
1 
2PROC CAS;
3langModel.calculateErrorRate / reference={name='llamadas_ref', caslib='casuser'} TABLE={name='llamadas_hyp', caslib='casuser'} referenceId='call_id' referenceText='transcript' tableId='call_id' tableText='transcript';
4 
5RUN;
6 

Resultado esperado


Se espera una tabla de resultados que muestre: Para C001, una eliminación ('mi'); para C002, una sustitución ('tarjeta' vs 'carpeta'); para C003, una coincidencia perfecta (WER=0). El sistema debe calcular las métricas globales de WER, CER y SER agregadas.