Mostrar el registro sencillo del ítem
dc.contributor.advisor | Martínez Hinarejos, Carlos David | es_ES |
dc.contributor.author | Gimeno Gómez, David | es_ES |
dc.date.accessioned | 2020-10-15T06:30:02Z | |
dc.date.available | 2020-10-15T06:30:02Z | |
dc.date.created | 2020-09-23 | |
dc.date.issued | 2020-10-15 | es_ES |
dc.identifier.uri | http://hdl.handle.net/10251/151888 | |
dc.description.abstract | [ES] Durante una conversación nuestro cerebro se encarga de combinar información procedente de múltiples sentidos con el objetivo de mejorar nuestra capacidad a la hora de comprender el mensaje que estamos percibiendo. Diferentes estudios han demostrado la importancia que presenta la información visual en estas situaciones, así como su relación con los sonidos producidos. Como bien sabemos, la lectura de labios es una tarea compleja cuyo objetivo es interpretar el habla cuando el audio no se encuentra disponible. Al prescindir de un sentido tan crucial como es el oído, dado que esta señal presenta una mayor cantidad de información respecto al reconocimiento del habla, será necesario ser conscientes de los desafíos que presenta dicha carencia. El propósito de este proyecto consiste en construir las bases de un sistema capaz de imitar la habilidad humana de interpretar el habla leyendo los labios del interlocutor. Desde un punto de vista más amplio, nuestra tarea no se distingue sustancialmente de otras como pueden ser el reconocimiento automático del habla a partir del audio o el reconocimiento de texto manuscrito. En otras palabras, nos encontramos bajo el marco de las tecnologías del lenguaje. Por ello, nuestra experimentación se fundamenta en torno a los avances realizados en este ámbito, explorando, en nuestro caso, un sistema basado en Modelos Ocultos de Markov Continuos. No obstante, el núcleo central sobre el que se apoya nuestro proyecto es el estudio y análisis de las diferentes características visuales que pueden representar la naturaleza de los movimientos labiales, por lo que se ha requerido el empleo de técnicas relacionadas con la Visión por Computador. Además, para poder llevar a cabo el proyecto ha sido necesario estudiar la literatura al respecto, así como obtener un conjunto de datos propicio, los cuales pertenecen a un subconjunto del corpus RTVE empleado en las evaluaciones Albayzín de Tecnologías del Habla. Las aplicaciones de este tipo de sistemas abarcan desde la transcripción de películas mudas de la época (tanto enfocadas al entretenimiento como la documentación histórica), proporcionar apoyo al reconocimiento del habla acústica cuando la calidad del audio se encuentra deteriorada o corrupta, así como el empleo de contraseñas visuales silenciosas o incluso dar soporte a la síntesis de voz para personas con dificultades en el habla dependiendo de sus movimientos labiales. | es_ES |
dc.description.abstract | [EN] During a conversation, our brain is responsible for combining information obtained from multiple senses in order to improve our ability to understand the message we are perceiving. Different studies have shown the importance of presenting visual information in these situations, as well as its relationship with the sounds produced. As we know, lip reading is a complex task whose objective is to interpret speech when audio is not available. By dispensing with a sense as crucial as hearing, since this signal presents a greater amount of information regarding speech recognition, it will be necessary to be aware of the challenge that this lack presents. The purpose of this project is to build the foundations of a system capable of imitating the human ability to interpret speech by reading the lips of the interlocutor. From a broader point of view, our task is not substantially different from others, such as automatic speech recognition from audio or handwritten text recognition. In other words, we are under the framework of language technologies. Therefore, our experimentation is based on the advances made in this area, exploring, in our case, a system based on Continuous Hidden Markov Models. However, the central core on which our project is based is the study and analysis of the different visual characteristics that may represent the nature of lip movements. Consequently, the use of techniques related to Computer Vision has been required. In addition, in order to carry out the project, it has been necessary to study the literature on this topic, as well as to obtain a suitable data set, which belongs to a subset of the RTVE corpus, used in the Albayzín evaluations of Speech Technologies. The applications of this type of systems range from the transcription of ancient silent films (both focused on entertainment and historical documentation), to provide support for acoustic speech recognition when audio quality is impaired or corrupted, apart from the use of silent visual passwords or even support speech synthesis for people with speech difficulties depending on their lip movements. | es_ES |
dc.description.abstract | [CA] Durant una conversació el nostre cervell s’encarrega de combinar informació procedent de múltiples sentits amb l’objectiu de millorar la nostra capacitat a l’hora de comprendre el missatge que estem percebent. Diferents estudis han demostrat la importància que presenta la informació visual en aquestes situacions, així com la seua relació amb els sons produïts. Com bé sabem, la lectura de llavis és una tasca complexa on l’objectiu és interpretar la parla quan l’àudio no està disponible. Al prescindir d’un sentit tan crucial com és l’oïda, ja que aquest senyal presenta una major quantitat d’informació respecte al reconeixement de la parla, caldrà ser conscients dels reptes que presenta aquesta carència. El propòsit d’aquest projecte consisteix a construir les bases d’un sistema capaç d’imitar l’habilitat humana d’interpretar la parla llegint els llavis de l’interlocutor. Des d’un punt de vista més ampli, la nostra tasca no es distingeix substancialment d’altres com poden ser el reconeixement automàtic de la parla a partir de l’àudio o el reconeixement de text manuscrit. En altres paraules, ens trobem davall el marc de les tecnologies del llenguatge. Per això, la nostra experimentació es fonamenta al voltant dels avanços realitzats en aquest àmbit, explorant, en el nostre cas, un sistema basat en Models Ocults de Markov Continus. No obstant això, el nucli central sobre el qual es recolza el nostre projecte és l’estudi i anàlisi de les diferents característiques visuals que poden representar la naturalesa dels moviments labials, cosa per la qual s’ha requerit l’ús de tècniques relacionades amb la Visió per Computador. A més, per poder dur a terme el projecte ha sigut necessari estudiar la literatura al respecte, així com obtenir un conjunt de dades propici, els quals pertanyen a un subconjunt del corpus RTVE, emprat en les avaluacions Albayzín de Tecnologies de la Parla. Les aplicacions d’aquest tipus de sistemes abasten des de la transcripció de pel·lícules mudes de l’època (tant enfocades a l’entreteniment com la documentació històrica), donar suport al reconeixement de la parla acústica quan la qualitat de l’àudio es troba deteriorada o corrupta, a més de l’ús de contrasenyes visuals silencioses o fins i tot donar suport a la síntesi de veu per a persones amb dificultats en la parla depenent dels seus moviments labials. | es_ES |
dc.format.extent | 88 | es_ES |
dc.language | Español | es_ES |
dc.publisher | Universitat Politècnica de València | es_ES |
dc.rights | Reserva de todos los derechos | es_ES |
dc.subject | Lectura de labios | es_ES |
dc.subject | Machine Learning | es_ES |
dc.subject | Tecnologías del Lenguaje | es_ES |
dc.subject | Visión por Computador | es_ES |
dc.subject | Modelos Ocultos de Markov | es_ES |
dc.subject | Deep Learning | es_ES |
dc.subject | Lipreading | es_ES |
dc.subject | Speech Technologies | es_ES |
dc.subject | Computer Vision | es_ES |
dc.subject | Hidden Markov Models | es_ES |
dc.subject | Lectura de llavis | es_ES |
dc.subject | Tecnologies del Llenguatge | es_ES |
dc.subject | Visió per Computador | es_ES |
dc.subject | Models Ocults de Markov | es_ES |
dc.subject.classification | LENGUAJES Y SISTEMAS INFORMATICOS | es_ES |
dc.subject.other | Máster Universitario en Inteligencia Artificial, Reconocimiento de Formas e Imagen Digital-Màster Universitari en Intel·Ligència Artificial: Reconeixement de Formes i Imatge Digital | es_ES |
dc.title | Lectura de labios mediante técnicas de Machine Learning | es_ES |
dc.type | Tesis de máster | es_ES |
dc.rights.accessRights | Abierto | es_ES |
dc.contributor.affiliation | Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació | es_ES |
dc.description.bibliographicCitation | Gimeno Gómez, D. (2020). Lectura de labios mediante técnicas de Machine Learning. http://hdl.handle.net/10251/151888 | es_ES |
dc.description.accrualMethod | TFGM | es_ES |
dc.relation.pasarela | TFGM\130407 | es_ES |