Resumen:
|
[ES] En este trabajo se describe un sistema para inferir respuestas al impulso acústicas (room impulse responses, RIR) entre dos ubicaciones específicas dentro de la misma sala. Dicho sistema está basado en redes neuronales ...[+]
[ES] En este trabajo se describe un sistema para inferir respuestas al impulso acústicas (room impulse responses, RIR) entre dos ubicaciones específicas dentro de la misma sala. Dicho sistema está basado en redes neuronales profundas en las que la entrada es una RIR medida en la sala. La novedad de este modelo es que la entrada es directamente la respuesta al impulso en el dominio del tiempo. En general, los modelados de RIRs que utilizan redes neuronales se han basado en la imagen obtenida por la short-time Fourier transform (STFT). Ambas presentan varias limitaciones principalmente debido a la dificultad en reconstruir la fase. En este trabajo se proponen e implementan diferentes arquitecturas de redes neuronales profundas y se compara su rendimiento. Entre otras, el estudio de autoencoders basados en redes neuronales recurrentes (recurrent neural network, RNN), las cuales son adecuadas para procesar secuencias de datos, como el audio, ya que pueden capturar la dependencia temporal de los datos.
[-]
[EN] This work describes a system for inferring room impulse responses (RIR) between two specific locations within the same room. This system is based on deep neural networks, where the input is an RIR measured in the room. ...[+]
[EN] This work describes a system for inferring room impulse responses (RIR) between two specific locations within the same room. This system is based on deep neural networks, where the input is an RIR measured in the room. The novelty of this model is that the input directly represents the impulse response in the time domain. Generally, RIR modeling using neural networks has been based on the image obtained by the short-time Fourier transform (STFT). Both approaches present several limitations, mainly due to the difficulty in reconstructing the phase. In this work, different architectures of deep neural networks are proposed and implemented, and their performance is compared. Among others, the study includes autoencoders based on recurrent neural networks (RNN), which are suitable for processing data sequences such as audio, as they can capture the temporal dependencies in the data.
[-]
|