Mostrar el registro sencillo del ítem
dc.contributor.advisor | Martínez Hinarejos, Carlos David | es_ES |
dc.contributor.advisor | Gimeno Gómez, David | es_ES |
dc.contributor.author | Acosta Triana, José Miguel | es_ES |
dc.date.accessioned | 2023-10-04T11:30:04Z | |
dc.date.available | 2023-10-04T11:30:04Z | |
dc.date.created | 2023-09-19 | |
dc.date.issued | 2023-10-04 | es_ES |
dc.identifier.uri | http://hdl.handle.net/10251/197534 | |
dc.description.abstract | [ES] La detección de actividad del habla en vídeos consiste en identificar el rostro de la persona que está hablando en cada momento de la escena. Este desafío tiene diversas aplicaciones, como pueden ser el enfoque automático en esa persona, la detección de falsificaciones de voz generadas mediante el uso de técnicas de aprendizaje profundo (DeepFakes) y la recopilación selectiva de datos para otras tareas, como el entrenamiento de sistemas de lectura de labios automáticos. En este trabajo, se aborda el problema en dos pasos: la detección de rostros en las imágenes de vídeo y la asociación de los rostros detectados con su correspondiente audio. Ambas etapas se basan en técnicas de aprendizaje automático, siguiendo el proceso estándar de recopilación y etiquetado de datos, selección y entrenamiento de modelos y su posterior evaluación. El objetivo final del proyecto consiste en facilitar y acelerar el proceso de la anotación de datos para la estimación de sistemas enfocados al reconocimiento del habla audiovisual. Por ello, se ha desarrollado una herramienta capaz de identificar en cada vídeo qué persona está hablando en función del audio correspondiente, recortar las escenas seleccionadas y ofrecérselas al anotador para su posterior supervisión. | es_ES |
dc.description.abstract | [EN] Activity speech detection in videos consists of identifying the face of the person who is speaking at each moment of the scene. This challenge has various applications, such as automatic focusing on the person, detection of voice impersonation generated by using deep learning techniques (DeepFakes), and selective data collection for other tasks, such as training automatic lip-reading systems. In this project, the problem is approached in two steps: face detection in video frames and associating the detected faces with its corresponding audio. Both stages rely on machine learning techniques, following the standard process of data collection and labeling, model selection and training, and subsequent evaluation. The ultimate goal of the project is to facilitate and speed up the process of data annotation for the estimation of systems focused on audiovisual speech recognition. For this purpose, we have developed a tool capable of identifying which person is speaking in each video based on the corresponding audio, cropping the selected scenes, and offering them to the annotator for further supervision. | es_ES |
dc.format.extent | 62 | es_ES |
dc.language | Español | es_ES |
dc.publisher | Universitat Politècnica de València | es_ES |
dc.rights | Reconocimiento - No comercial (by-nc) | es_ES |
dc.subject | Anotación de datos | es_ES |
dc.subject | Visión por computador | es_ES |
dc.subject | Detección del habla | es_ES |
dc.subject | Deep Learning (DL) | es_ES |
dc.subject | Procesamiento de vídeo | es_ES |
dc.subject | Procesamiento de audio | es_ES |
dc.subject | Detección de caras | es_ES |
dc.subject | Aprendizaje automático | es_ES |
dc.subject | Audio processing | es_ES |
dc.subject | Machine Learning | es_ES |
dc.subject | Video processing | es_ES |
dc.subject | Face detection | es_ES |
dc.subject | Data annotation | es_ES |
dc.subject | Computer vision | es_ES |
dc.subject | Speech detection | es_ES |
dc.subject.classification | LENGUAJES Y SISTEMAS INFORMATICOS | es_ES |
dc.subject.other | Máster Universitario en Inteligencia Artificial, Reconocimiento de Formas e Imagen Digital-Màster Universitari en Intel·ligència Artificial, Reconeixement de Formes i Imatge Digital | es_ES |
dc.title | Detección de actividad del habla en vídeos | es_ES |
dc.title.alternative | Speech activity detection in videos | es_ES |
dc.title.alternative | Detecció d'activitat de parla en videos | es_ES |
dc.type | Tesis de máster | es_ES |
dc.rights.accessRights | Abierto | es_ES |
dc.contributor.affiliation | Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació | es_ES |
dc.description.bibliographicCitation | Acosta Triana, JM. (2023). Detección de actividad del habla en vídeos. Universitat Politècnica de València. http://hdl.handle.net/10251/197534 | es_ES |
dc.description.accrualMethod | TFGM | es_ES |
dc.relation.pasarela | TFGM\155018 | es_ES |