Normalización de Entrada para Deep Learning en Bioacústica

Contexto empresarial

Un instituto de investigación monitorea la biodiversidad en la selva amazónica mediante sensores de audio. Procesan terabytes de grabaciones continuas para detectar especies de aves. Para alimentar su Red Neuronal Convolucional (CNN), todas las muestras de audio deben convertirse en mapas de características FBANK (Filter Banks) de tamaño fijo, independientemente de la duración original del clip de audio.

Preparación de datos

Simulación de carga masiva de segmentos de audio de la selva.

¡Copiado!

1	PROC CAS;
2	audio.loadAudio /
3	caslib='JUNGLE_DATA'
4	path='sensors/sector_7g/'
5	casOut={name='amazon_sensors_raw', replace=true};
6	RUN;

Étapes de réalisation

Configuración de opciones FBANK logarítmicas y forzado de tamaño de salida fijo.

¡Copiado!

1	PROC CAS;
2	audio.computeFeatures /
3	TABLE={name='amazon_sensors_raw'}
4	casOut={name='cnn_input_tensor', replace=true}
5	fbankOptions={useLogFbank=true, usePower=true}
6	melBanksOptions={nBins=64}
7	nOutputFrames=1000;
8	RUN;

Resultado esperado

La tabla de salida 'cnn_input_tensor' contiene características FBANK logarítmicas con 64 bins de frecuencia. Críticamente, cada observación tiene exactamente 1000 tramas temporales (rellenadas con ceros si el audio era corto, o recortadas si era largo), listas para ser ingeridas por la capa de entrada de la CNN sin errores de dimensión.

Voir la documentation technique de computeFeatures