Detección de actividad del habla en vídeos

Acosta Triana, José Miguel

RiuNet repositorio UPV
:
Docencia
:
Trabajos académicos
:
Servicio de alumnado - Trabajos académicos
:
Ver ítem

Identificarse

Buscar en RiuNet

Listar

Todo RiuNet
Esta colección

Mi cuenta

Acceder

Estadísticas

Ver Estadísticas de uso

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Detección de actividad del habla en vídeos

Mostrar el registro sencillo del ítem

Ficheros en el ítem

Nombre: Acosta - Deteccion ...

Tamaño: 11.19Mb

Formato: PDF

Abrir

dc.contributor.advisor	Martínez Hinarejos, Carlos David	es_ES
dc.contributor.advisor	Gimeno Gómez, David	es_ES
dc.contributor.author	Acosta Triana, José Miguel	es_ES
dc.date.accessioned	2023-10-04T11:30:04Z
dc.date.available	2023-10-04T11:30:04Z
dc.date.created	2023-09-19
dc.date.issued	2023-10-04	es_ES
dc.identifier.uri	http://hdl.handle.net/10251/197534
dc.description.abstract	[ES] La detección de actividad del habla en vídeos consiste en identificar el rostro de la persona que está hablando en cada momento de la escena. Este desafío tiene diversas aplicaciones, como pueden ser el enfoque automático en esa persona, la detección de falsificaciones de voz generadas mediante el uso de técnicas de aprendizaje profundo (DeepFakes) y la recopilación selectiva de datos para otras tareas, como el entrenamiento de sistemas de lectura de labios automáticos. En este trabajo, se aborda el problema en dos pasos: la detección de rostros en las imágenes de vídeo y la asociación de los rostros detectados con su correspondiente audio. Ambas etapas se basan en técnicas de aprendizaje automático, siguiendo el proceso estándar de recopilación y etiquetado de datos, selección y entrenamiento de modelos y su posterior evaluación. El objetivo final del proyecto consiste en facilitar y acelerar el proceso de la anotación de datos para la estimación de sistemas enfocados al reconocimiento del habla audiovisual. Por ello, se ha desarrollado una herramienta capaz de identificar en cada vídeo qué persona está hablando en función del audio correspondiente, recortar las escenas seleccionadas y ofrecérselas al anotador para su posterior supervisión.	es_ES
dc.description.abstract	[EN] Activity speech detection in videos consists of identifying the face of the person who is speaking at each moment of the scene. This challenge has various applications, such as automatic focusing on the person, detection of voice impersonation generated by using deep learning techniques (DeepFakes), and selective data collection for other tasks, such as training automatic lip-reading systems. In this project, the problem is approached in two steps: face detection in video frames and associating the detected faces with its corresponding audio. Both stages rely on machine learning techniques, following the standard process of data collection and labeling, model selection and training, and subsequent evaluation. The ultimate goal of the project is to facilitate and speed up the process of data annotation for the estimation of systems focused on audiovisual speech recognition. For this purpose, we have developed a tool capable of identifying which person is speaking in each video based on the corresponding audio, cropping the selected scenes, and offering them to the annotator for further supervision.	es_ES
dc.format.extent	62	es_ES
dc.language	Español	es_ES
dc.publisher	Universitat Politècnica de València	es_ES
dc.rights	Reconocimiento - No comercial (by-nc)	es_ES
dc.subject	Anotación de datos	es_ES
dc.subject	Visión por computador	es_ES
dc.subject	Detección del habla	es_ES
dc.subject	Deep Learning (DL)	es_ES
dc.subject	Procesamiento de vídeo	es_ES
dc.subject	Procesamiento de audio	es_ES
dc.subject	Detección de caras	es_ES
dc.subject	Aprendizaje automático	es_ES
dc.subject	Audio processing	es_ES
dc.subject	Machine Learning	es_ES
dc.subject	Video processing	es_ES
dc.subject	Face detection	es_ES
dc.subject	Data annotation	es_ES
dc.subject	Computer vision	es_ES
dc.subject	Speech detection	es_ES
dc.subject.classification	LENGUAJES Y SISTEMAS INFORMATICOS	es_ES
dc.subject.other	Máster Universitario en Inteligencia Artificial, Reconocimiento de Formas e Imagen Digital-Màster Universitari en Intel·ligència Artificial, Reconeixement de Formes i Imatge Digital	es_ES
dc.title	Detección de actividad del habla en vídeos	es_ES
dc.title.alternative	Speech activity detection in videos	es_ES
dc.title.alternative	Detecció d'activitat de parla en videos	es_ES
dc.type	Tesis de máster	es_ES
dc.rights.accessRights	Abierto	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació	es_ES
dc.description.bibliographicCitation	Acosta Triana, JM. (2023). Detección de actividad del habla en vídeos. Universitat Politècnica de València. http://hdl.handle.net/10251/197534	es_ES
dc.description.accrualMethod	TFGM	es_ES
dc.relation.pasarela	TFGM\155018	es_ES

Este ítem aparece en la(s) siguiente(s) colección(ones)

Servicio de alumnado - Trabajos académicos [7391]

Mostrar el registro sencillo del ítem

Detección de actividad del habla en vídeos

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Buscar en RiuNet

Listar

Todo RiuNet

Esta colección

Mi cuenta

Estadísticas

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Detección de actividad del habla en vídeos

Ficheros en el ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)