Lectura de labios en imágenes de vídeo

Gimeno Gómez, David

Identificarse

Buscar en RiuNet

Listar

Todo RiuNet
Esta colección

Mi cuenta

Acceder

Estadísticas

Ver Estadísticas de uso

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Lectura de labios en imágenes de vídeo

Mostrar el registro sencillo del ítem

Ficheros en el ítem

Nombre: Gimeno - Lectura ...

Tamaño: 1.875Mb

Formato: PDF

Abrir

dc.contributor.advisor	Martínez Hinarejos, Carlos David	es_ES
dc.contributor.author	Gimeno Gómez, David	es_ES
dc.date.accessioned	2019-09-04T15:57:28Z
dc.date.available	2019-09-04T15:57:28Z
dc.date.created	2019-07-09
dc.date.issued	2019-09-04	es_ES
dc.identifier.uri	http://hdl.handle.net/10251/125008
dc.description.abstract	[ES] Durante una conversación nuestro cerebro se encarga de combinar la información procedente de múltiples sentidos con el objetivo de mejorar nuestra capacidad a la hora de interpretar el mensaje percibido. Además, diferentes estudios han demostrado la relación existente entre las expresiones faciales y su sonido correspondiente. Este efecto nos ha impulsado hacia la construcción de un sistema capaz de leer los labios considerando únicamente la información procedente del canal visual, es decir, capaz de mimetizar la habilidad humana de interpretar el habla leyendo los labios del interlocutor. Para ello, en primer lugar, se ha construido un dataset compuesto por planos frontales de cuatro presentadores de telediario, así como las transcripciones asociadas a cada uno de los discursos. Para cada uno de estos discursos, se localiza la región bucal gracias a bibliotecas enfocadas al machine learning, como es el caso de scikit-learn Tras la compilación de este conjunto de datos, se han procesado los distintos planos de modo que puedan ser interpretados por el sistema. Además, después de este procesado, se han aplicado técnicas de selección de características para prescindir de aquellos datos que no aporten información relevante de cara al reconocimiento del habla. Por otra parte, nuestro sistema se compone de distintos módulos, entre los que destacamos los Modelos Ocultos de Markov Continuos por su gran aporte al ámbito del reconocimiento de voz, o texto manuscrito, entre otros. Estos modelos son entrenados con un subconjunto del dataset construido, mientras que sus prestaciones serán comprobadas con los datos restantes. Sin embargo, los resultados obtenidos tras el protocolo experimental no han sido mínimamente aceptables. Esto demuestra la dificultad que presenta la interpretación del habla continua y, más aún, si tenemos en cuenta los desafíos que supone la carencia de un sentido tan crucial como es el oído. Por tanto, nuestro sistema se proyecta sobre trabajos futuros en los cuales volcar el resto de nuestros esfuerzos	es_ES
dc.description.abstract	[EN] During a conversation our brain is responsible for combining information from multiple senses in order to improve our ability to interpret the perceived message. In addition, different studies have shown the relationship between facial expressions and their corresponding sound. This effect has driven us towards the construction of a system capable of reading the lips considering only the information coming from the visual channel, that is, capable of mimicking the human ability to interpret speech by reading the interlocutor's lips. For this, first, a dataset composed of frontal views of four television news anchors has been constructed, as well as the transcriptions associated to each one of the speeches. For each of these speeches, the mouth region is located thanks to libraries focused on machine learning, as it is the case of scikit-learn. After the compilation of this dataset, the different views have been processed so that they can be interpreted by the system. In addition, after this processing, feature selection techniques have been applied to disregard data that does not provide relevant information for speech recognition. On the other hand, our system is composed of different modules, among which we highlight the Continuous Hidden Markov Models for their great contribution to the field of voice recognition, or handwritten text, among others. These models are trained with a subset of the constructed dataset, while their accuracy will be checked with the remaining data. However, the results obtained after the experimental protocol have not been minimally acceptable. This demonstrates the difficulty presented by the interpretation of continuous speech and, even more so, if we consider the challenges posed by the lack of such a crucial sense as hearing. Therefore, our system is projected on future works in which to focus the rest of our efforts.	es_ES
dc.description.abstract	[CA] Durant una conversació el nostre cervell s'encarrega de combinar la informació procedent de múltiples sentits amb l'objectiu de millorar la nostra capacitat a l'hora d'interpretar el missatge percebut. A més, diferents estudis han demostrat la relació existent entre les expressions facials i el seu so corresponent. Este efecte ens ha impulsat cap a la construcció d'un sistema capaç de llegir els llavis considerant únicament la informació procedent del canal visual, és a dir, capaç de mimetitzar l'habilitat humana d'interpretar la parla llegint els llavis de l'interlocutor. Per a això, en primer lloc, s'ha construït un dataset compost per plans frontals de quatre presentadors de telenotícies, així com les transcripcions associades a cada un dels discursos. Per a cada un d'estos discursos, es localitza la regió bucal gràcies a biblioteques enfocades al machine learning, com és el cas de scikit-learn Després de la compilació d'este conjunt de dades, s'han processat els distints plans de manera que puguen ser interpretats pel sistema. A més, després d'este processat, s'han aplicat tècniques de selecció de característiques per a prescindir d'aquelles dades que no aporten informació rellevant de cara al reconeixement de la parla. D'altra banda, el nostre sistema es compon de distints mòduls, entre els que destaquem els Models Ocults de Markov Continus per la seua gran aportació a l'àmbit del reconeixement de veu, o text manuscrit, entre altres. Estos models són entrenats amb un subconjunt del dataset construït, mentres que les seues prestacions seran comprovades amb les dades restants. No obstant això, els resultats obtinguts després del protocol experimental no han sigut mínimament acceptables. Açò demostra la dificultat que presenta la interpretació de la parla contínua i, més encara, si tenim en compte els desafiaments que suposa la carència d'un sentit tan crucial com és l'oïda. Per tant, el nostre sistema es projecta sobre treballs futurs en els quals bolcar la resta dels nostres esforços	es_ES
dc.format.extent	51	es_ES
dc.language	Español	es_ES
dc.publisher	Universitat Politècnica de València	es_ES
dc.rights	Reserva de todos los derechos	es_ES
dc.subject	lectura de labios	es_ES
dc.subject	machine learning	es_ES
dc.subject	dataset	es_ES
dc.subject	Modelo Oculto de Markov	es_ES
dc.subject	lipreading	es_ES
dc.subject	Hidden Markov Model	es_ES
dc.subject.classification	LENGUAJES Y SISTEMAS INFORMATICOS	es_ES
dc.subject.other	Grado en Ingeniería Informática-Grau en Enginyeria Informàtica	es_ES
dc.title	Lectura de labios en imágenes de vídeo	es_ES
dc.type	Proyecto/Trabajo fin de carrera/grado	es_ES
dc.rights.accessRights	Abierto	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica	es_ES
dc.description.bibliographicCitation	Gimeno Gómez, D. (2019). Lectura de labios en imágenes de vídeo. http://hdl.handle.net/10251/125008	es_ES
dc.description.accrualMethod	TFGM	es_ES
dc.relation.pasarela	TFGM\96603	es_ES

Este ítem aparece en la(s) siguiente(s) colección(ones)

ETSINF - Trabajos académicos [4804]
Escola Tècnica Superior d'Enginyeria Informàtica

Mostrar el registro sencillo del ítem

Lectura de labios en imágenes de vídeo

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Buscar en RiuNet

Listar

Todo RiuNet

Esta colección

Mi cuenta

Estadísticas

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Lectura de labios en imágenes de vídeo

Ficheros en el ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)