Scénario de test & Cas d'usage
Gestión de grandes modelos de lenguaje (LLM) y PNL.
Descubrir todas las acciones de langModelCreación de datos con IDs no coincidentes, textos vacíos y caracteres especiales.
| 1 | DATA casuser.dirty_ref; LENGTH uuid $ 10 raw_text $ 50; INFILE DATALINES delimiter=','; INPUT uuid $ raw_text $; DATALINES; |
| 2 | ID1,texto normal |
| 3 | ID2,esperando hipotesis |
| 4 | ID3,texto con @#% caracteres |
| 5 | ID4, |
| 6 | ; RUN; |
| 7 | DATA casuser.dirty_hyp; LENGTH uuid $ 10 raw_text $ 50; INFILE DATALINES delimiter=','; INPUT uuid $ raw_text $; DATALINES; |
| 8 | ID1,texto normal |
| 9 | ID3,texto con caracteres |
| 10 | ID5,hipotesis sin referencia |
| 11 | ID4,algo de texto |
| 12 | ; RUN; |
| 1 | |
| 2 | PROC CAS; |
| 3 | langModel.calculateErrorRate / reference={name='dirty_ref', caslib='casuser'} TABLE={name='dirty_hyp', caslib='casuser'} referenceId='uuid' referenceText='raw_text' tableId='uuid' tableText='raw_text'; |
| 4 | |
| 5 | RUN; |
| 6 |
La acción no debe fallar (crash). Se espera que: 1) ID2 se cuente como 100% error (eliminación total) o se excluya según la lógica interna de unión. 2) ID5 (solo en hipótesis) se trate como inserción pura o se ignore. 3) ID4 compare texto vacío vs 'algo de texto' resultando en inserciones puras. 4) ID3 penalice los caracteres especiales faltantes si no se normalizan.