langModel calculateErrorRate

Robustesse face aux Données Incomplètes et IDs Disjoints

Scénario de test & Cas d'usage

Contexte Métier

Dans un environnement de production réel, des erreurs d'ingestion peuvent survenir : identifiants présents dans la référence mais manquants dans l'hypothèse (et inversement), ou transcriptions vides. L'action doit gérer ces cas sans planter.
À propos du Set : langModel

Gestion des grands modèles de langage (LLM) et NLP.

Découvrir toutes les actions de langModel
Préparation des Données

Création de tables avec des ensembles d'identifiants qui ne se chevauchent que partiellement et des textes vides.

Copié !
1DATA casuser.dirty_ref;
2 INFILE DATALINES delimiter='|';
3 LENGTH id $5 txt $50;
4 INPUT id $ txt $;
5 DATALINES;
6 A01|Le texte parfait
7 A02|Seulement dans ref
8 A03|
9 ;
10 RUN;
11 DATA casuser.dirty_hyp;
12 INFILE DATALINES delimiter='|';
13 LENGTH id $5 txt $50;
14 INPUT id $ txt $;
15 DATALINES;
16 A01|Le texte imparfait
17 A03|Texte pour vide
18 A04|Seulement dans hyp
19 ;
20 RUN;

Étapes de réalisation

1
Exécution de l'action sur ces données 'sales'.
Copié !
1PROC CAS;
2 langModel.calculateErrorRate /
3 reference={name='dirty_ref'}
4 referenceId='id' referenceText='txt'
5 TABLE={name='dirty_hyp'}
6 tableId='id' tableText='txt';
7 RUN;
8 QUIT;

Résultat Attendu


L'action doit fonctionner correctement en effectuant une jointure interne implicite sur les IDs. Seul l'ID 'A01' (commun et non vide) et potentiellement 'A03' (vide vs texte) devraient être évalués. Les IDs orphelins (A02, A04) doivent être ignorés sans provoquer d'arrêt du programme.