Aquesta tesi s’emmarca dins del camp de la Separació de Fonts Sonores (SSS), on s’ha treballat en el desenvolupament i l’avaluació d’aquestes tècniques per aplicar-les a la resíntesi d’escenes sonores d’alt realisme, mitjançant Síntesi de Camp d’Ones (WFS). Tot i que la gran majoria dels enregistraments sonors s’emmagatzemen en un format estèreo de dues canals, és necessari disposar de sistemes especials de conversió, amb la finalitat d’utilitzar sistemes avançats de reproducció de so espacial, com per exemple WFS. Això es deu al fet que WFS necessita els senyals originals de les fonts per sintetitzar, de forma precisa, el camp acústic dins d’una àmplia zona d’escolta, requerint un procés de barreja basat en objectes. 

Els problemes de separació de fonts en el tractament digital del senyal són aquells en els que d’una barreja de diverses senyals, es tracta de trobar els senyals originals que van donar lloc a la mescla. Per tant, els algorismes de SSS poden aplicar-se’n a mescles estèreo ja existents per extraure els objectes sonors que composen l’escena sonora. Malauradament, la majoria de les mescles estèreo són subdeterminades, és a dir, estan compostes per un nombre de fonts major al nombre de canals. Aquesta condició fa que el problema de SSS siga especialment difícil i porta a assumir fortes propietats dels senyals, normalment relacionades amb l’escassetat (sparsity) d’aquestes sota alguna transformació. 

Aquesta tesi se centra en l’aplicació de les tècniques de SSS al  camp de so espacial. és per això que les seues contribucions poden ser classificades en aquestes dues àrees. En primer lloc, es proposen dos mètodes de SSS subdeterminats que tracten de manera eficient la separació de mescles estèreo. Aquestes tècniques estan basades en la segmentació i aplicació de llindars multinivell, la qual permet separar fonts sonores de forma ràpida en el domini temps-frequència. Tot i que les dues tècniques es basen en el mateix tipus d’agrupació, les característiques considerades per cadascuna d’elles estan relacionades amb diferents aspectes de localització que permeten separar les fonts en mescles instantànies i reals. Addicionalment, es proposen dues tècniques de post-processament enfocades a millorar l’aïllament de les fonts separades. Les prestacions obtingudes per diversos mètodes de SSS a la res´intesi d’escenes sonores amb WFS és posteriorment avaluada mitjançant tests subjectius, posant especial atenció al canvi observat en els atributs de percepció espacial. Encara que les fonts estimades són versions distorsionades de les originals, els efectes d’emmascarament que es produeixen en la remescla espacial provoquen que els artefactes siguen més difícilment percebuts, millorant la qualitat subjectiva global. La tesi finalitza amb una sèrie de nous desenvolupaments relacionats amb l’aplicació del processament temps-freqüència a la localització de fonts i a la millora espacial de la reproducció de so.