Extracción de MFCC para Sistema de Transcripción de Llamadas

Contexto empresarial

El centro de atención al cliente 'HableBien' está implementando un sistema de reconocimiento automático del habla (ASR) para analizar la calidad del servicio. El equipo de Data Science necesita transformar miles de grabaciones de llamadas (archivos .wav) en coeficientes MFCC (Mel-frequency cepstral coefficients), que son el estándar para entrenar sus modelos acústicos iniciales.

Preparación de datos

Carga de un lote diario de grabaciones del servidor a una tabla CAS.

¡Copiado!

1	PROC CAS;
2	audio.loadAudio /
3	caslib='CASUSER'
4	path='call_center_batch_01/'
5	casOut={name='raw_calls_audio', replace=true};
6	RUN;

Étapes de réalisation

Verificación de la carga de la tabla de audio crudo.

¡Copiado!

1
2	PROC CAS;
3
4	TABLE.tableDetails / name='raw_calls_audio';
5
6	RUN;
7

Cálculo de 13 coeficientes MFCC incluyendo la energía para capturar la intensidad de la voz.

¡Copiado!

1	PROC CAS;
2	audio.computeFeatures /
3	TABLE={name='raw_calls_audio'}
4	audioColumn='_audio_'
5	casOut={name='calls_features_mfcc', replace=true}
6	copyVars={'_path_'}
7	mfccOptions={nCeps=13}
8	fbankOptions={useEnergy=true};
9	RUN;

Resultado esperado

Se genera la tabla 'calls_features_mfcc'. Cada fila corresponde a una llamada y contiene una columna con vectores multidimensionales de coeficientes MFCC. La columna de energía está presente, permitiendo al modelo distinguir silencios de voz activa.

Voir la documentation technique de computeFeatures