Esta tesis se enmarca dentro del campo de la Separación de Fuentes Sonoras (SSS), donde se ha trabajado en el desarrollo y evaluación de estas técnicas para aplicarlas a la resíntesis de escenas sonoras de alto realismo utilizando Síntesis de Campo de Ondas (WFS). Dado que la gran mayoría de grabaciones sonoras se almacena en un formato estéreo de dos canales, es necesario disponer de sistemas especiales de conversión con el fin de utilizar sistemas avanzados de reproducción de sonido espacial, como por ejemplo WFS. Esto se debe al hecho de que WFS necesita las señales originales de las fuentes para sintetizar de forma precisa el campo acústico dentro de una amplia zona de escucha, requiriendo un proceso de mezcla basado en objetos. 

Los problemas de separación de fuentes en el tratamiento digital de la señal son aquellos en los que, a partir de una mezcla de varias señales, se trata de encontrar las señales originales que dieron lugar a la mezcla. Por tanto, los algoritmos de SSS pueden aplicarse a mezclas estéreo ya existentes para extraer los distintos objetos que componen la escena sonora. Desafortunadamente, la mayoría de las mezclas estéreo son subdeterminadas, es decir, están compuestas por un número de fuentes mayor al número de canales. Esta condición hace que el problema de SSS sea especialmente difícil y lleva a asumir ciertas propiedades de las señales, normalmente relacionadas con la escasez (sparsity) de éstas bajo alguna transformación.

Esta tesis se centra en la aplicación de las técnicas SSS al campo de sonido espacial. Es por esto que sus contribuciones pueden ser clasificadas en estas dos áreas. En primer lugar, se proponen dos métodos de SSS subdeterminados que tratan de forma eficiente y no supervisada la separación de mezclas estéreo. Estas técnicas están basadas en la segmentación por umbralización multinivel, la cual permite separar fuentes sonoras de forma rápida en el dominio tiempo-frecuencia. Aunque ambas técnicas se basan en el mismo tipo de agrupación, las características consideradas por cada una de ellas están relacionadas con diferentes aspectos de localización que permiten separar las fuentes de mezclas instantáneas y reales. Adicionalmente, se proponen dos técnicas de post-procesado enfocadas a mejorar el aislamiento de las fuentes separadas. Las prestaciones obtenidas por varios métodos de SSS en la resíntesis de escenas sonoras con WFS son posteriormente evaluadas por medio de tests subjetivos, prestando especial atención al cambio observado en los atributos de percepción espacial. Aunque las fuentes estimadas son versiones distorsionadas de las originales, los efectos de enmascaramiento que se producen en la remezcla espacial provocan que los artefactos sean más dificilmente percibidos, mejorando la calidad subjetiva global. La Tesis finaliza con una serie de nuevos desarrollos relacionados con la aplicación del procesamiento tiempo-frecuencia a la localización de fuentes y a la mejora espacial de la reproducción de sonido.