audio computeFeatures

Normalización de Entrada para Deep Learning en Bioacústica

Scénario de test & Cas d'usage

Contexto empresarial

Un instituto de investigación monitorea la biodiversidad en la selva amazónica mediante sensores de audio. Procesan terabytes de grabaciones continuas para detectar especies de aves. Para alimentar su Red Neuronal Convolucional (CNN), todas las muestras de audio deben convertirse en mapas de características FBANK (Filter Banks) de tamaño fijo, independientemente de la duración original del clip de audio.
Preparación de datos

Simulación de carga masiva de segmentos de audio de la selva.

¡Copiado!
1PROC CAS;
2 audio.loadAudio /
3 caslib='JUNGLE_DATA'
4 path='sensors/sector_7g/'
5 casOut={name='amazon_sensors_raw', replace=true};
6RUN;

Étapes de réalisation

1
Configuración de opciones FBANK logarítmicas y forzado de tamaño de salida fijo.
¡Copiado!
1PROC CAS;
2 audio.computeFeatures /
3 TABLE={name='amazon_sensors_raw'}
4 casOut={name='cnn_input_tensor', replace=true}
5 fbankOptions={useLogFbank=true, usePower=true}
6 melBanksOptions={nBins=64}
7 nOutputFrames=1000;
8RUN;

Resultado esperado


La tabla de salida 'cnn_input_tensor' contiene características FBANK logarítmicas con 64 bins de frecuencia. Críticamente, cada observación tiene exactamente 1000 tramas temporales (rellenadas con ceros si el audio era corto, o recortadas si era largo), listas para ser ingeridas por la capa de entrada de la CNN sin errores de dimensión.