Manejo de IDs Desalineados y Textos Vacíos

Contexto empresarial

En un entorno de streaming en tiempo real, algunos paquetes de datos se pierden o llegan vacíos. Es crucial verificar cómo se comporta la acción cuando hay IDs en la referencia que no existen en la hipótesis (y viceversa), o cuando las cadenas de texto están vacías o contienen caracteres especiales.

Sobre el conjunto : langModel

Gestión de grandes modelos de lenguaje (LLM) y PNL.

Descubrir todas las acciones de langModel

Preparación de datos

Creación de datos con IDs no coincidentes, textos vacíos y caracteres especiales.

¡Copiado!

1	DATA casuser.dirty_ref; LENGTH uuid $ 10 raw_text $ 50; INFILE DATALINES delimiter=','; INPUT uuid $ raw_text $; DATALINES;
2	ID1,texto normal
3	ID2,esperando hipotesis
4	ID3,texto con @#% caracteres
5	ID4,
6	; RUN;
7	DATA casuser.dirty_hyp; LENGTH uuid $ 10 raw_text $ 50; INFILE DATALINES delimiter=','; INPUT uuid $ raw_text $; DATALINES;
8	ID1,texto normal
9	ID3,texto con caracteres
10	ID5,hipotesis sin referencia
11	ID4,algo de texto
12	; RUN;

Étapes de réalisation

Intento de ejecución con datos 'sucios' para observar el manejo de uniones (joins) y valores nulos.

¡Copiado!

1
2	PROC CAS;
3	langModel.calculateErrorRate / reference={name='dirty_ref', caslib='casuser'} TABLE={name='dirty_hyp', caslib='casuser'} referenceId='uuid' referenceText='raw_text' tableId='uuid' tableText='raw_text';
4
5	RUN;
6

Resultado esperado

La acción no debe fallar (crash). Se espera que: 1) ID2 se cuente como 100% error (eliminación total) o se excluya según la lógica interna de unión. 2) ID5 (solo en hipótesis) se trate como inserción pura o se ignore. 3) ID4 compare texto vacío vs 'algo de texto' resultando en inserciones puras. 4) ID3 penalice los caracteres especiales faltantes si no se normalizan.

Voir la documentation technique de calculateErrorRate