- -

Detección de actividad del habla en vídeos

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Compartir/Enviar a

Citas

Estadísticas

  • Estadisticas de Uso

Detección de actividad del habla en vídeos

Mostrar el registro sencillo del ítem

Ficheros en el ítem

dc.contributor.advisor Martínez Hinarejos, Carlos David es_ES
dc.contributor.advisor Gimeno Gómez, David es_ES
dc.contributor.author Acosta Triana, José Miguel es_ES
dc.date.accessioned 2023-10-04T11:30:04Z
dc.date.available 2023-10-04T11:30:04Z
dc.date.created 2023-09-19
dc.date.issued 2023-10-04 es_ES
dc.identifier.uri http://hdl.handle.net/10251/197534
dc.description.abstract [ES] La detección de actividad del habla en vídeos consiste en identificar el rostro de la persona que está hablando en cada momento de la escena. Este desafío tiene diversas aplicaciones, como pueden ser el enfoque automático en esa persona, la detección de falsificaciones de voz generadas mediante el uso de técnicas de aprendizaje profundo (DeepFakes) y la recopilación selectiva de datos para otras tareas, como el entrenamiento de sistemas de lectura de labios automáticos. En este trabajo, se aborda el problema en dos pasos: la detección de rostros en las imágenes de vídeo y la asociación de los rostros detectados con su correspondiente audio. Ambas etapas se basan en técnicas de aprendizaje automático, siguiendo el proceso estándar de recopilación y etiquetado de datos, selección y entrenamiento de modelos y su posterior evaluación. El objetivo final del proyecto consiste en facilitar y acelerar el proceso de la anotación de datos para la estimación de sistemas enfocados al reconocimiento del habla audiovisual. Por ello, se ha desarrollado una herramienta capaz de identificar en cada vídeo qué persona está hablando en función del audio correspondiente, recortar las escenas seleccionadas y ofrecérselas al anotador para su posterior supervisión. es_ES
dc.description.abstract [EN] Activity speech detection in videos consists of identifying the face of the person who is speaking at each moment of the scene. This challenge has various applications, such as automatic focusing on the person, detection of voice impersonation generated by using deep learning techniques (DeepFakes), and selective data collection for other tasks, such as training automatic lip-reading systems. In this project, the problem is approached in two steps: face detection in video frames and associating the detected faces with its corresponding audio. Both stages rely on machine learning techniques, following the standard process of data collection and labeling, model selection and training, and subsequent evaluation. The ultimate goal of the project is to facilitate and speed up the process of data annotation for the estimation of systems focused on audiovisual speech recognition. For this purpose, we have developed a tool capable of identifying which person is speaking in each video based on the corresponding audio, cropping the selected scenes, and offering them to the annotator for further supervision. es_ES
dc.format.extent 62 es_ES
dc.language Español es_ES
dc.publisher Universitat Politècnica de València es_ES
dc.rights Reconocimiento - No comercial (by-nc) es_ES
dc.subject Anotación de datos es_ES
dc.subject Visión por computador es_ES
dc.subject Detección del habla es_ES
dc.subject Deep Learning (DL) es_ES
dc.subject Procesamiento de vídeo es_ES
dc.subject Procesamiento de audio es_ES
dc.subject Detección de caras es_ES
dc.subject Aprendizaje automático es_ES
dc.subject Audio processing es_ES
dc.subject Machine Learning es_ES
dc.subject Video processing es_ES
dc.subject Face detection es_ES
dc.subject Data annotation es_ES
dc.subject Computer vision es_ES
dc.subject Speech detection es_ES
dc.subject.classification LENGUAJES Y SISTEMAS INFORMATICOS es_ES
dc.subject.other Máster Universitario en Inteligencia Artificial, Reconocimiento de Formas e Imagen Digital-Màster Universitari en Intel·ligència Artificial, Reconeixement de Formes i Imatge Digital es_ES
dc.title Detección de actividad del habla en vídeos es_ES
dc.title.alternative Speech activity detection in videos es_ES
dc.title.alternative Detecció d'activitat de parla en videos es_ES
dc.type Tesis de máster es_ES
dc.rights.accessRights Abierto es_ES
dc.contributor.affiliation Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació es_ES
dc.description.bibliographicCitation Acosta Triana, JM. (2023). Detección de actividad del habla en vídeos. Universitat Politècnica de València. http://hdl.handle.net/10251/197534 es_ES
dc.description.accrualMethod TFGM es_ES
dc.relation.pasarela TFGM\155018 es_ES


Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem