langModel calculateErrorRate

Évaluation Standard de la Transcription d'un Chatbot Bancaire

Scénario de test & Cas d'usage

Contexte Métier

Une banque déploie un nouvel assistant virtuel et doit valider la qualité de la transcription (Speech-to-Text) avant la mise en production. Le test compare les transcriptions automatiques (hypothèses) avec des logs vérifiés manuellement (référence) pour s'assurer que les demandes critiques (virements, opposition carte) sont bien comprises.
À propos du Set : langModel

Gestion des grands modèles de langage (LLM) et NLP.

Découvrir toutes les actions de langModel
Préparation des Données

Création d'un jeu de données simulant des dialogues bancaires avec des erreurs de transcription typiques (mots tronqués, omissions).

Copié !
1DATA casuser.chat_ref;
2 INFILE DATALINES delimiter='|';
3 LENGTH msg_id $10 content $200;
4 INPUT msg_id $ content $;
5 DATALINES;
6 MSG001|je veux consulter mon solde
7 MSG002|virement international urgent
8 MSG003|merci de bloquer ma carte
9 ;
10 RUN;
11 DATA casuser.chat_hyp;
12 INFILE DATALINES delimiter='|';
13 LENGTH msg_id $10 content $200;
14 INPUT msg_id $ content $;
15 DATALINES;
16 MSG001|je veux consulter mon sol
17 MSG002|virement international
18 MSG003|merci de bloquer la carte
19 ;
20 RUN;

Étapes de réalisation

1
Exécution de l'action calculateErrorRate en mappant explicitement les colonnes ID et Texte.
Copié !
1PROC CAS;
2 langModel.calculateErrorRate /
3 reference={name='chat_ref'}
4 referenceId='msg_id'
5 referenceText='content'
6 TABLE={name='chat_hyp'}
7 tableId='msg_id'
8 tableText='content';
9 RUN;
10 QUIT;

Résultat Attendu


L'action doit générer une table de statistiques (WER, CER, SER). Pour MSG001 (solde vs sol), on attend une erreur de caractère élevée. Pour MSG002 (omission de 'urgent'), une erreur de suppression. Le résultat valide la capacité de l'outil à détecter ces régressions.