Prueba de Volumen con Archivos de Subtítulos Masivos

Contexto empresarial

Una empresa de medios necesita procesar miles de horas de archivos de video. Antes de desplegar la solución, se debe probar si la acción `calculateErrorRate` puede manejar eficientemente la comparación de 100,000 segmentos de subtítulos sin degradación de memoria o tiempo de ejecución excesivo.

Sobre el conjunto : langModel

Gestión de grandes modelos de lenguaje (LLM) y PNL.

Descubrir todas las acciones de langModel

Preparación de datos

Generación sintética de 100,000 registros para simular una carga de trabajo masiva.

¡Copiado!

1
2	DATA casuser.big_ref;
3	LENGTH seg_id $ 20 content $ 100;
4	DO i=1 to 100000;
5	seg_id=cats('SEG_', i);
6	content='este es el contenido original del segmento numero ' \|\| cats(i);
7	OUTPUT;
8	END;
9
10	RUN;
11	DATA casuser.big_hyp;
12	LENGTH seg_id $ 20 content $ 100;
13	DO i=1 to 100000;
14	seg_id=cats('SEG_', i);
15	IF rand('UNIFORM') > 0.8 THEN content='este es el contenido predicho del segmento numero ' \|\| cats(i);
16	ELSE content='este es el contenido original del segmento numero ' \|\| cats(i);
17	OUTPUT;
18	END;
19
20	RUN;
21

Étapes de réalisation

Verificación de la carga correcta de las tablas voluminosas.

¡Copiado!

1	PROC CAS; TABLE.tableInfo / caslib='casuser'; RUN;

Ejecución de la acción sobre el conjunto de datos masivo utilizando los nombres de columna predeterminados (renombrados en la preparación si fuera necesario, o mapeados aquí).

¡Copiado!

1
2	PROC CAS;
3	langModel.calculateErrorRate / reference={name='big_ref', caslib='casuser'} TABLE={name='big_hyp', caslib='casuser'} referenceId='seg_id' referenceText='content' tableId='seg_id' tableText='content';
4
5	RUN;
6

Resultado esperado

La acción debe completarse exitosamente en un tiempo razonable. El resultado debe reflejar un WER bajo (dado que el 80% de los datos son idénticos en la simulación) y confirmar que se procesaron las 100,000 filas sin errores de memoria.

Voir la documentation technique de calculateErrorRate