[ES] Los mecanismos de Localización de Fuentes de Sonido (SSL) han sido ampliamente estudiados. Muchas
aplicaciones como sistemas de teleconferencia o realzado de voz necesitan la localización de una o más
fuentes ...[+]
[ES] Los mecanismos de Localización de Fuentes de Sonido (SSL) han sido ampliamente estudiados. Muchas
aplicaciones como sistemas de teleconferencia o realzado de voz necesitan la localización de una o más
fuentes acústicas. Además es esencial localizar las fuentes incluso en ambientes ruidosos y con reverberación. Se ha demostrado que el Steered Response Power (SRP) es un método más robusto que los
métodos de dos pasos basados en la diferencia de tiempo de llegada. El problema en el cálculo del SRP
es que es necesario el uso de un mallado fino lo que implica un coste computacional muy alto para
ser utilizado en sistemas de tiempo real. Con este propósito, se ha introducido una nueva estrategia
(función modificada SRP-PHAT) que puede ser usada en un sistema de tiempo real con un coste computacional
bajo. Además se ha demostrado que la distribución estadística de las posiciones estimadas
cuando el hablante está activo puede ser utilizado satisfactoriamente para distinguir fragmentos de
habla y no habla. El principal objetivo de este trabajo es describir nuestra nueva propuesta e integrarla
en un sistema de localización y detección de hablantes en tiempo real. Se mostrara la aplicabilidad del
método en un entorno real de videoconferencia usando una cámara acústicamente dirigida.
[-]
[EN] Sound Source Localization (SSL) mechanisms have been extensively studied. Many applications like
teleconferencing or speech enhancement systems require the localization of one or more acoustic
sources. Moreover, it ...[+]
[EN] Sound Source Localization (SSL) mechanisms have been extensively studied. Many applications like
teleconferencing or speech enhancement systems require the localization of one or more acoustic
sources. Moreover, it is essential to localize sources also in noisy and reverberant environments. It
has been shown that computing the Steered Response Power (SRP) is more robust approach than twostage,
direct time-difference of arrival methods. The problem with computing the SRP is that a fine
grid search procedure is needed, which is too expensive for a real-time system. To this end, it has been
introduced a new strategy (modified SRP-PHAT functional) which can be used for a real-time system
with a low computational cost. Moreover, it has been demonstrated that the statistical distribution of
location estimates when a speaker is active can be successfully used to discriminate between speech and
non-speech frames. The main objective of this work is to describe our new localization approach and
integrate it into a real-time speaker localization and detection system. The applicability of the method
will be shown for a real videoconferencing environment using an acoustically-driven steering camera
[-]
|