audio computeFeatures

Extracción de MFCC para Sistema de Transcripción de Llamadas

Scénario de test & Cas d'usage

Contexto empresarial

El centro de atención al cliente 'HableBien' está implementando un sistema de reconocimiento automático del habla (ASR) para analizar la calidad del servicio. El equipo de Data Science necesita transformar miles de grabaciones de llamadas (archivos .wav) en coeficientes MFCC (Mel-frequency cepstral coefficients), que son el estándar para entrenar sus modelos acústicos iniciales.
Preparación de datos

Carga de un lote diario de grabaciones del servidor a una tabla CAS.

¡Copiado!
1PROC CAS;
2 audio.loadAudio /
3 caslib='CASUSER'
4 path='call_center_batch_01/'
5 casOut={name='raw_calls_audio', replace=true};
6RUN;

Étapes de réalisation

1
Verificación de la carga de la tabla de audio crudo.
¡Copiado!
1 
2PROC CAS;
3 
4TABLE.tableDetails / name='raw_calls_audio';
5 
6RUN;
7 
2
Cálculo de 13 coeficientes MFCC incluyendo la energía para capturar la intensidad de la voz.
¡Copiado!
1PROC CAS;
2 audio.computeFeatures /
3 TABLE={name='raw_calls_audio'}
4 audioColumn='_audio_'
5 casOut={name='calls_features_mfcc', replace=true}
6 copyVars={'_path_'}
7 mfccOptions={nCeps=13}
8 fbankOptions={useEnergy=true};
9RUN;

Resultado esperado


Se genera la tabla 'calls_features_mfcc'. Cada fila corresponde a una llamada y contiene una columna con vectores multidimensionales de coeficientes MFCC. La columna de energía está presente, permitiendo al modelo distinguir silencios de voz activa.