Évaluation Standard de la Transcription d'un Chatbot Bancaire

Contexte Métier

Une banque déploie un nouvel assistant virtuel et doit valider la qualité de la transcription (Speech-to-Text) avant la mise en production. Le test compare les transcriptions automatiques (hypothèses) avec des logs vérifiés manuellement (référence) pour s'assurer que les demandes critiques (virements, opposition carte) sont bien comprises.

À propos du Set : langModel

Gestion des grands modèles de langage (LLM) et NLP.

Découvrir toutes les actions de langModel

Préparation des Données

Création d'un jeu de données simulant des dialogues bancaires avec des erreurs de transcription typiques (mots tronqués, omissions).

Copié !

1	DATA casuser.chat_ref;
2	INFILE DATALINES delimiter='\|';
3	LENGTH msg_id $10 content $200;
4	INPUT msg_id $ content $;
5	DATALINES;
6	MSG001\|je veux consulter mon solde
7	MSG002\|virement international urgent
8	MSG003\|merci de bloquer ma carte
9	;
10	RUN;
11	DATA casuser.chat_hyp;
12	INFILE DATALINES delimiter='\|';
13	LENGTH msg_id $10 content $200;
14	INPUT msg_id $ content $;
15	DATALINES;
16	MSG001\|je veux consulter mon sol
17	MSG002\|virement international
18	MSG003\|merci de bloquer la carte
19	;
20	RUN;

Étapes de réalisation

Exécution de l'action calculateErrorRate en mappant explicitement les colonnes ID et Texte.

Copié !

1	PROC CAS;
2	langModel.calculateErrorRate /
3	reference={name='chat_ref'}
4	referenceId='msg_id'
5	referenceText='content'
6	TABLE={name='chat_hyp'}
7	tableId='msg_id'
8	tableText='content';
9	RUN;
10	QUIT;

Résultat Attendu

L'action doit générer une table de statistiques (WER, CER, SER). Pour MSG001 (solde vs sol), on attend une erreur de caractère élevée. Pour MSG002 (omission de 'urgent'), une erreur de suppression. Le résultat valide la capacité de l'outil à détecter ces régressions.

Voir la documentation technique de calculateErrorRate