Lectura de labios mediante técnicas de Machine Learning

Gimeno Gómez, David

RiuNet repositorio UPV
:
Docencia
:
Trabajos académicos
:
Servicio de alumnado - Trabajos académicos
:
Ver ítem

Identificarse

Buscar en RiuNet

Listar

Todo RiuNet
Esta colección

Mi cuenta

Acceder

Estadísticas

Ver Estadísticas de uso

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Lectura de labios mediante técnicas de Machine Learning

Mostrar el registro sencillo del ítem

Ficheros en el ítem

Nombre: Gimeno - Lectura ...

Tamaño: 6.014Mb

Formato: PDF

Abrir

dc.contributor.advisor	Martínez Hinarejos, Carlos David	es_ES
dc.contributor.author	Gimeno Gómez, David	es_ES
dc.date.accessioned	2020-10-15T06:30:02Z
dc.date.available	2020-10-15T06:30:02Z
dc.date.created	2020-09-23
dc.date.issued	2020-10-15	es_ES
dc.identifier.uri	http://hdl.handle.net/10251/151888
dc.description.abstract	[ES] Durante una conversación nuestro cerebro se encarga de combinar información procedente de múltiples sentidos con el objetivo de mejorar nuestra capacidad a la hora de comprender el mensaje que estamos percibiendo. Diferentes estudios han demostrado la importancia que presenta la información visual en estas situaciones, así como su relación con los sonidos producidos. Como bien sabemos, la lectura de labios es una tarea compleja cuyo objetivo es interpretar el habla cuando el audio no se encuentra disponible. Al prescindir de un sentido tan crucial como es el oído, dado que esta señal presenta una mayor cantidad de información respecto al reconocimiento del habla, será necesario ser conscientes de los desafíos que presenta dicha carencia. El propósito de este proyecto consiste en construir las bases de un sistema capaz de imitar la habilidad humana de interpretar el habla leyendo los labios del interlocutor. Desde un punto de vista más amplio, nuestra tarea no se distingue sustancialmente de otras como pueden ser el reconocimiento automático del habla a partir del audio o el reconocimiento de texto manuscrito. En otras palabras, nos encontramos bajo el marco de las tecnologías del lenguaje. Por ello, nuestra experimentación se fundamenta en torno a los avances realizados en este ámbito, explorando, en nuestro caso, un sistema basado en Modelos Ocultos de Markov Continuos. No obstante, el núcleo central sobre el que se apoya nuestro proyecto es el estudio y análisis de las diferentes características visuales que pueden representar la naturaleza de los movimientos labiales, por lo que se ha requerido el empleo de técnicas relacionadas con la Visión por Computador. Además, para poder llevar a cabo el proyecto ha sido necesario estudiar la literatura al respecto, así como obtener un conjunto de datos propicio, los cuales pertenecen a un subconjunto del corpus RTVE empleado en las evaluaciones Albayzín de Tecnologías del Habla. Las aplicaciones de este tipo de sistemas abarcan desde la transcripción de películas mudas de la época (tanto enfocadas al entretenimiento como la documentación histórica), proporcionar apoyo al reconocimiento del habla acústica cuando la calidad del audio se encuentra deteriorada o corrupta, así como el empleo de contraseñas visuales silenciosas o incluso dar soporte a la síntesis de voz para personas con dificultades en el habla dependiendo de sus movimientos labiales.	es_ES
dc.description.abstract	[EN] During a conversation, our brain is responsible for combining information obtained from multiple senses in order to improve our ability to understand the message we are perceiving. Different studies have shown the importance of presenting visual information in these situations, as well as its relationship with the sounds produced. As we know, lip reading is a complex task whose objective is to interpret speech when audio is not available. By dispensing with a sense as crucial as hearing, since this signal presents a greater amount of information regarding speech recognition, it will be necessary to be aware of the challenge that this lack presents. The purpose of this project is to build the foundations of a system capable of imitating the human ability to interpret speech by reading the lips of the interlocutor. From a broader point of view, our task is not substantially different from others, such as automatic speech recognition from audio or handwritten text recognition. In other words, we are under the framework of language technologies. Therefore, our experimentation is based on the advances made in this area, exploring, in our case, a system based on Continuous Hidden Markov Models. However, the central core on which our project is based is the study and analysis of the different visual characteristics that may represent the nature of lip movements. Consequently, the use of techniques related to Computer Vision has been required. In addition, in order to carry out the project, it has been necessary to study the literature on this topic, as well as to obtain a suitable data set, which belongs to a subset of the RTVE corpus, used in the Albayzín evaluations of Speech Technologies. The applications of this type of systems range from the transcription of ancient silent films (both focused on entertainment and historical documentation), to provide support for acoustic speech recognition when audio quality is impaired or corrupted, apart from the use of silent visual passwords or even support speech synthesis for people with speech difficulties depending on their lip movements.	es_ES
dc.description.abstract	[CA] Durant una conversació el nostre cervell s’encarrega de combinar informació procedent de múltiples sentits amb l’objectiu de millorar la nostra capacitat a l’hora de comprendre el missatge que estem percebent. Diferents estudis han demostrat la importància que presenta la informació visual en aquestes situacions, així com la seua relació amb els sons produïts. Com bé sabem, la lectura de llavis és una tasca complexa on l’objectiu és interpretar la parla quan l’àudio no està disponible. Al prescindir d’un sentit tan crucial com és l’oïda, ja que aquest senyal presenta una major quantitat d’informació respecte al reconeixement de la parla, caldrà ser conscients dels reptes que presenta aquesta carència. El propòsit d’aquest projecte consisteix a construir les bases d’un sistema capaç d’imitar l’habilitat humana d’interpretar la parla llegint els llavis de l’interlocutor. Des d’un punt de vista més ampli, la nostra tasca no es distingeix substancialment d’altres com poden ser el reconeixement automàtic de la parla a partir de l’àudio o el reconeixement de text manuscrit. En altres paraules, ens trobem davall el marc de les tecnologies del llenguatge. Per això, la nostra experimentació es fonamenta al voltant dels avanços realitzats en aquest àmbit, explorant, en el nostre cas, un sistema basat en Models Ocults de Markov Continus. No obstant això, el nucli central sobre el qual es recolza el nostre projecte és l’estudi i anàlisi de les diferents característiques visuals que poden representar la naturalesa dels moviments labials, cosa per la qual s’ha requerit l’ús de tècniques relacionades amb la Visió per Computador. A més, per poder dur a terme el projecte ha sigut necessari estudiar la literatura al respecte, així com obtenir un conjunt de dades propici, els quals pertanyen a un subconjunt del corpus RTVE, emprat en les avaluacions Albayzín de Tecnologies de la Parla. Les aplicacions d’aquest tipus de sistemes abasten des de la transcripció de pel·lícules mudes de l’època (tant enfocades a l’entreteniment com la documentació històrica), donar suport al reconeixement de la parla acústica quan la qualitat de l’àudio es troba deteriorada o corrupta, a més de l’ús de contrasenyes visuals silencioses o fins i tot donar suport a la síntesi de veu per a persones amb dificultats en la parla depenent dels seus moviments labials.	es_ES
dc.format.extent	88	es_ES
dc.language	Español	es_ES
dc.publisher	Universitat Politècnica de València	es_ES
dc.rights	Reserva de todos los derechos	es_ES
dc.subject	Lectura de labios	es_ES
dc.subject	Machine Learning	es_ES
dc.subject	Tecnologías del Lenguaje	es_ES
dc.subject	Visión por Computador	es_ES
dc.subject	Modelos Ocultos de Markov	es_ES
dc.subject	Deep Learning	es_ES
dc.subject	Lipreading	es_ES
dc.subject	Speech Technologies	es_ES
dc.subject	Computer Vision	es_ES
dc.subject	Hidden Markov Models	es_ES
dc.subject	Lectura de llavis	es_ES
dc.subject	Tecnologies del Llenguatge	es_ES
dc.subject	Visió per Computador	es_ES
dc.subject	Models Ocults de Markov	es_ES
dc.subject.classification	LENGUAJES Y SISTEMAS INFORMATICOS	es_ES
dc.subject.other	Máster Universitario en Inteligencia Artificial, Reconocimiento de Formas e Imagen Digital-Màster Universitari en Intel·Ligència Artificial: Reconeixement de Formes i Imatge Digital	es_ES
dc.title	Lectura de labios mediante técnicas de Machine Learning	es_ES
dc.type	Tesis de máster	es_ES
dc.rights.accessRights	Abierto	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació	es_ES
dc.description.bibliographicCitation	Gimeno Gómez, D. (2020). Lectura de labios mediante técnicas de Machine Learning. http://hdl.handle.net/10251/151888	es_ES
dc.description.accrualMethod	TFGM	es_ES
dc.relation.pasarela	TFGM\130407	es_ES

Este ítem aparece en la(s) siguiente(s) colección(ones)

Servicio de alumnado - Trabajos académicos [7391]

Mostrar el registro sencillo del ítem

Lectura de labios mediante técnicas de Machine Learning

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Buscar en RiuNet

Listar

Todo RiuNet

Esta colección

Mi cuenta

Estadísticas

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Lectura de labios mediante técnicas de Machine Learning

Ficheros en el ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)