- -

Lectura de labios mediante técnicas de Machine Learning

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Compartir/Enviar a

Citas

Estadísticas

  • Estadisticas de Uso

Lectura de labios mediante técnicas de Machine Learning

Mostrar el registro sencillo del ítem

Ficheros en el ítem

dc.contributor.advisor Martínez Hinarejos, Carlos David es_ES
dc.contributor.author Gimeno Gómez, David es_ES
dc.date.accessioned 2020-10-15T06:30:02Z
dc.date.available 2020-10-15T06:30:02Z
dc.date.created 2020-09-23
dc.date.issued 2020-10-15 es_ES
dc.identifier.uri http://hdl.handle.net/10251/151888
dc.description.abstract [ES] Durante una conversación nuestro cerebro se encarga de combinar información procedente de múltiples sentidos con el objetivo de mejorar nuestra capacidad a la hora de comprender el mensaje que estamos percibiendo. Diferentes estudios han demostrado la importancia que presenta la información visual en estas situaciones, así como su relación con los sonidos producidos. Como bien sabemos, la lectura de labios es una tarea compleja cuyo objetivo es interpretar el habla cuando el audio no se encuentra disponible. Al prescindir de un sentido tan crucial como es el oído, dado que esta señal presenta una mayor cantidad de información respecto al reconocimiento del habla, será necesario ser conscientes de los desafíos que presenta dicha carencia. El propósito de este proyecto consiste en construir las bases de un sistema capaz de imitar la habilidad humana de interpretar el habla leyendo los labios del interlocutor. Desde un punto de vista más amplio, nuestra tarea no se distingue sustancialmente de otras como pueden ser el reconocimiento automático del habla a partir del audio o el reconocimiento de texto manuscrito. En otras palabras, nos encontramos bajo el marco de las tecnologías del lenguaje. Por ello, nuestra experimentación se fundamenta en torno a los avances realizados en este ámbito, explorando, en nuestro caso, un sistema basado en Modelos Ocultos de Markov Continuos. No obstante, el núcleo central sobre el que se apoya nuestro proyecto es el estudio y análisis de las diferentes características visuales que pueden representar la naturaleza de los movimientos labiales, por lo que se ha requerido el empleo de técnicas relacionadas con la Visión por Computador. Además, para poder llevar a cabo el proyecto ha sido necesario estudiar la literatura al respecto, así como obtener un conjunto de datos propicio, los cuales pertenecen a un subconjunto del corpus RTVE empleado en las evaluaciones Albayzín de Tecnologías del Habla. Las aplicaciones de este tipo de sistemas abarcan desde la transcripción de películas mudas de la época (tanto enfocadas al entretenimiento como la documentación histórica), proporcionar apoyo al reconocimiento del habla acústica cuando la calidad del audio se encuentra deteriorada o corrupta, así como el empleo de contraseñas visuales silenciosas o incluso dar soporte a la síntesis de voz para personas con dificultades en el habla dependiendo de sus movimientos labiales. es_ES
dc.description.abstract [EN] During a conversation, our brain is responsible for combining information obtained from multiple senses in order to improve our ability to understand the message we are perceiving. Different studies have shown the importance of presenting visual information in these situations, as well as its relationship with the sounds produced. As we know, lip reading is a complex task whose objective is to interpret speech when audio is not available. By dispensing with a sense as crucial as hearing, since this signal presents a greater amount of information regarding speech recognition, it will be necessary to be aware of the challenge that this lack presents. The purpose of this project is to build the foundations of a system capable of imitating the human ability to interpret speech by reading the lips of the interlocutor. From a broader point of view, our task is not substantially different from others, such as automatic speech recognition from audio or handwritten text recognition. In other words, we are under the framework of language technologies. Therefore, our experimentation is based on the advances made in this area, exploring, in our case, a system based on Continuous Hidden Markov Models. However, the central core on which our project is based is the study and analysis of the different visual characteristics that may represent the nature of lip movements. Consequently, the use of techniques related to Computer Vision has been required. In addition, in order to carry out the project, it has been necessary to study the literature on this topic, as well as to obtain a suitable data set, which belongs to a subset of the RTVE corpus, used in the Albayzín evaluations of Speech Technologies. The applications of this type of systems range from the transcription of ancient silent films (both focused on entertainment and historical documentation), to provide support for acoustic speech recognition when audio quality is impaired or corrupted, apart from the use of silent visual passwords or even support speech synthesis for people with speech difficulties depending on their lip movements. es_ES
dc.description.abstract [CA] Durant una conversació el nostre cervell s’encarrega de combinar informació procedent de múltiples sentits amb l’objectiu de millorar la nostra capacitat a l’hora de comprendre el missatge que estem percebent. Diferents estudis han demostrat la importància que presenta la informació visual en aquestes situacions, així com la seua relació amb els sons produïts. Com bé sabem, la lectura de llavis és una tasca complexa on l’objectiu és interpretar la parla quan l’àudio no està disponible. Al prescindir d’un sentit tan crucial com és l’oïda, ja que aquest senyal presenta una major quantitat d’informació respecte al reconeixement de la parla, caldrà ser conscients dels reptes que presenta aquesta carència. El propòsit d’aquest projecte consisteix a construir les bases d’un sistema capaç d’imitar l’habilitat humana d’interpretar la parla llegint els llavis de l’interlocutor. Des d’un punt de vista més ampli, la nostra tasca no es distingeix substancialment d’altres com poden ser el reconeixement automàtic de la parla a partir de l’àudio o el reconeixement de text manuscrit. En altres paraules, ens trobem davall el marc de les tecnologies del llenguatge. Per això, la nostra experimentació es fonamenta al voltant dels avanços realitzats en aquest àmbit, explorant, en el nostre cas, un sistema basat en Models Ocults de Markov Continus. No obstant això, el nucli central sobre el qual es recolza el nostre projecte és l’estudi i anàlisi de les diferents característiques visuals que poden representar la naturalesa dels moviments labials, cosa per la qual s’ha requerit l’ús de tècniques relacionades amb la Visió per Computador. A més, per poder dur a terme el projecte ha sigut necessari estudiar la literatura al respecte, així com obtenir un conjunt de dades propici, els quals pertanyen a un subconjunt del corpus RTVE, emprat en les avaluacions Albayzín de Tecnologies de la Parla. Les aplicacions d’aquest tipus de sistemes abasten des de la transcripció de pel·lícules mudes de l’època (tant enfocades a l’entreteniment com la documentació històrica), donar suport al reconeixement de la parla acústica quan la qualitat de l’àudio es troba deteriorada o corrupta, a més de l’ús de contrasenyes visuals silencioses o fins i tot donar suport a la síntesi de veu per a persones amb dificultats en la parla depenent dels seus moviments labials. es_ES
dc.format.extent 88 es_ES
dc.language Español es_ES
dc.publisher Universitat Politècnica de València es_ES
dc.rights Reserva de todos los derechos es_ES
dc.subject Lectura de labios es_ES
dc.subject Machine Learning es_ES
dc.subject Tecnologías del Lenguaje es_ES
dc.subject Visión por Computador es_ES
dc.subject Modelos Ocultos de Markov es_ES
dc.subject Deep Learning es_ES
dc.subject Lipreading es_ES
dc.subject Speech Technologies es_ES
dc.subject Computer Vision es_ES
dc.subject Hidden Markov Models es_ES
dc.subject Lectura de llavis es_ES
dc.subject Tecnologies del Llenguatge es_ES
dc.subject Visió per Computador es_ES
dc.subject Models Ocults de Markov es_ES
dc.subject.classification LENGUAJES Y SISTEMAS INFORMATICOS es_ES
dc.subject.other Máster Universitario en Inteligencia Artificial, Reconocimiento de Formas e Imagen Digital-Màster Universitari en Intel·Ligència Artificial: Reconeixement de Formes i Imatge Digital es_ES
dc.title Lectura de labios mediante técnicas de Machine Learning es_ES
dc.type Tesis de máster es_ES
dc.rights.accessRights Abierto es_ES
dc.contributor.affiliation Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació es_ES
dc.description.bibliographicCitation Gimeno Gómez, D. (2020). Lectura de labios mediante técnicas de Machine Learning. http://hdl.handle.net/10251/151888 es_ES
dc.description.accrualMethod TFGM es_ES
dc.relation.pasarela TFGM\130407 es_ES


Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem