Resumen:
|
[ES] La detección de actividad del habla en vídeos consiste en identificar el rostro de la persona que está hablando en cada momento de la escena. Este desafío tiene diversas aplicaciones, como pueden ser el enfoque ...[+]
[ES] La detección de actividad del habla en vídeos consiste en identificar el rostro de la persona que está hablando en cada momento de la escena. Este desafío tiene diversas aplicaciones, como pueden ser el enfoque automático en esa persona, la detección de falsificaciones de voz generadas mediante el uso de técnicas de aprendizaje profundo (DeepFakes) y la recopilación selectiva de datos para otras tareas, como el entrenamiento de sistemas de lectura de labios automáticos.
En este trabajo, se aborda el problema en dos pasos: la detección de rostros en las imágenes de vídeo y la asociación de los rostros detectados con su correspondiente audio. Ambas etapas se basan en técnicas de aprendizaje automático, siguiendo el proceso estándar de recopilación y etiquetado de datos, selección y entrenamiento de modelos y su posterior evaluación. El objetivo final del proyecto consiste en facilitar y acelerar el proceso de la anotación de datos para la estimación de sistemas enfocados al reconocimiento del habla audiovisual. Por ello, se ha desarrollado una herramienta capaz de identificar en cada vídeo qué persona está hablando en función del audio correspondiente, recortar las escenas seleccionadas y ofrecérselas al anotador para su posterior supervisión.
[-]
[EN] Activity speech detection in videos consists of identifying the face of the person who is speaking at each moment of the scene. This challenge has various applications, such as automatic focusing on the person, detection ...[+]
[EN] Activity speech detection in videos consists of identifying the face of the person who is speaking at each moment of the scene. This challenge has various applications, such as automatic focusing on the person, detection of voice impersonation generated by using deep learning techniques (DeepFakes), and selective data collection for other tasks, such as training automatic lip-reading systems. In this project, the problem is approached in two steps: face detection in video frames and associating the detected faces with its corresponding audio. Both stages rely on machine learning techniques, following the standard process of data collection and labeling, model selection and training, and subsequent evaluation.
The ultimate goal of the project is to facilitate and speed up the process of data annotation for the estimation of systems focused on audiovisual speech recognition. For this purpose, we have developed a tool capable of identifying which person is speaking in each video based on the corresponding audio, cropping the selected scenes, and offering them to the annotator for further supervision.
[-]
|