Robustesse face aux Données Incomplètes et IDs Disjoints

Contexte Métier

Dans un environnement de production réel, des erreurs d'ingestion peuvent survenir : identifiants présents dans la référence mais manquants dans l'hypothèse (et inversement), ou transcriptions vides. L'action doit gérer ces cas sans planter.

À propos du Set : langModel

Gestion des grands modèles de langage (LLM) et NLP.

Découvrir toutes les actions de langModel

Préparation des Données

Création de tables avec des ensembles d'identifiants qui ne se chevauchent que partiellement et des textes vides.

Copié !

1	DATA casuser.dirty_ref;
2	INFILE DATALINES delimiter='\|';
3	LENGTH id $5 txt $50;
4	INPUT id $ txt $;
5	DATALINES;
6	A01\|Le texte parfait
7	A02\|Seulement dans ref
8	A03\|
9	;
10	RUN;
11	DATA casuser.dirty_hyp;
12	INFILE DATALINES delimiter='\|';
13	LENGTH id $5 txt $50;
14	INPUT id $ txt $;
15	DATALINES;
16	A01\|Le texte imparfait
17	A03\|Texte pour vide
18	A04\|Seulement dans hyp
19	;
20	RUN;

Étapes de réalisation

Exécution de l'action sur ces données 'sales'.

Copié !

1	PROC CAS;
2	langModel.calculateErrorRate /
3	reference={name='dirty_ref'}
4	referenceId='id' referenceText='txt'
5	TABLE={name='dirty_hyp'}
6	tableId='id' tableText='txt';
7	RUN;
8	QUIT;

Résultat Attendu

L'action doit fonctionner correctement en effectuant une jointure interne implicite sur les IDs. Seul l'ID 'A01' (commun et non vide) et potentiellement 'A03' (vide vs texte) devraient être évalués. Les IDs orphelins (A02, A04) doivent être ignorés sans provoquer d'arrêt du programme.

Voir la documentation technique de calculateErrorRate