Comparison between statistical and neuronal models for machine translation

Llorens Ripollés, José Manuel

Identificarse

Buscar en RiuNet

Listar

Todo RiuNet
Esta colección

Mi cuenta

Acceder

Estadísticas

Ver Estadísticas de uso

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Comparison between statistical and neuronal models for machine translation

Mostrar el registro sencillo del ítem

Ficheros en el ítem

Nombre: LLORENS - Comparación ...

Tamaño: 1.514Mb

Formato: PDF

Abrir

dc.contributor.advisor	Casacuberta Nolla, Francisco	es_ES
dc.contributor.advisor	Herman, Pawel	es_ES
dc.contributor.author	Llorens Ripollés, José Manuel	es_ES
dc.date.accessioned	2018-09-18T13:19:16Z
dc.date.available	2018-09-18T13:19:16Z
dc.date.created	2018-07-23
dc.date.issued	2018-09-18	es_ES
dc.identifier.uri	http://hdl.handle.net/10251/107663
dc.description.abstract	[EN] Machine translation is a thriving field that deals with multiple of the challenges that the modern world face. From accessing to knowledge in a foreign language, to being able to communicate with people that does not speakthelanguage, we can take great benefit from automatic translation made by software. The state-of-the-art models of machine translation during the last decades, based of inferred statistical knowledge over a set of parallel data, had been recently challenged by neural models based on large artificial neural networks. This study aims to compare both methods of machine translation, the one based on statistical inference (SMT) and the one based on neural networks (NMT). The objective of the project is to compare the performance and the computational needs of both models depending on different factors like the size of the training data or the likeliness of language pair. To make this comparison I have used publicly available parallel data and frameworks in order to implement the models. The evaluation of said models are done under the BLEU score, which computes the correspondence of the translation with the translation made by a human operation. The results indicate that the SMT model outperform the NMT model given relatively small amount of data and a basic set of techniques. The results also shown that NMT have a substantially higher need of processing power, given that the training of large ANN is more demanding than the statistical inference	es_ES
dc.description.abstract	[ES] La traducción automática (TA) es el uso de software para traducir desde un idioma a otro. El objetivo de realizar traducciones automaticas entre idiomas se remonta a los inicios de los computadores electrónicos. La TA ha evolucionado desde sus inicios en los años 50 reflejando los avances en el campo de la computación. En los años 80 un equipo dirigido por Makoro Nagao desarrolló el primer sistema que basaba la traducción en la analogía entre textos traducidos. Este fue el primer sistema de traducción automática estadística (TAE). La idea básica detrás de la TAE es usar las distribuciones de probabilidades extraídas de los textos traducidos para crear un modelo de traducción. Los sistemas de TAE han sido los sistemas de TA más estudiados y el estándard de estas ultimas décadas. No obstante, con la rápida expansión de los sistemas neuronales en la computación, hemos visto un rápido incremento de la traducción automática neuronal (TAN) con grandes empresas como Google cambiando sus sistemas de traducción de los previos modelos estadísticos a modelos neuronales. El objetivo de este proyecto es comparar la TAE y la TAN. La TAE usa la probabilidad como base de su traducción mientras que la TAN usa grandes redes neuronales. Con esta comparación espero ganar un profundo conocimiento sobre como los diferentes algoritmos y parámetros de los dos métodos afectan a sus traducciones. Con los nuevos avances computacionales y en un mundo más global que nunca, la TA es un campo prospero. Comparar estos dos métodos nos puede dar la información necesaria para decidir cual usar dependiendo de nuestra situación y limitaciones. Además, entender la evolución de un campo como el de la TA nos puede ayudar a visualizar futuros cambios e identificar áreas de investigación interesantes. En este proyecto compararé la TAE con la TAN. El alcance de esta comparación incluye (pero no está limitado a) los fundamentos de los modelos, su efectividad, la cantidad de recursos computacionales que necesitan y la cantidad de datos de entrenamiento que necesitan. Consecuentemente, el problema puede ser definido como: Cuales son las principales diferencias entre la TAE y la TAN y como se desempeñan estos métdos con diferentes idiomas y diferentes cantidades de recursos como el tamaño de los datos de entrenamiento . Para la comparación usare distintos marcos de trabajo como MOSES para estudiar las traducciones de métodos de TAE o OpenNMT para la TAN. Respecto a los datos de entrenamiento, me centraré en los conjuntos de datos proporcionados para el workshop en TAE (WMT), concretamente aquellos textos con traducciones de noticias. Una de las principales comparaciones será ir incrementando el tamaño de los datos de entrenamiento para ver como influye en la calidad de la traducción y en la necesidad de recursos computacionales. La evaluación de la traducción es una tarea compleja y un campo de investigación por si mismo dentro de la TM. Para este proyecto usare el método BLEU. Otra comparación importante es comparar como los modelos se desempeñan con pares de idiomas más sencillos como Inglés y Alemán en comparación a como lo hacen con pares más complejos como Chino y Inglés.	es_ES
dc.format.extent	62	es_ES
dc.language	Inglés	es_ES
dc.publisher	Universitat Politècnica de València	es_ES
dc.rights	Reserva de todos los derechos	es_ES
dc.subject	Traducción automática	es_ES
dc.subject	Inteligencia Artificial	es_ES
dc.subject	Modelos estadísticos	es_ES
dc.subject	Modelos neuronales	es_ES
dc.subject	Redes	es_ES
dc.subject	Moses	es_ES
dc.subject	OpenNMT	es_ES
dc.subject	Machine translation	es_ES
dc.subject	Artificial Intelligence	es_ES
dc.subject	Statistic	es_ES
dc.subject	Neural	es_ES
dc.subject	Neuronal	es_ES
dc.subject	Networks	es_ES
dc.subject.classification	LENGUAJES Y SISTEMAS INFORMATICOS	es_ES
dc.subject.other	Grado en Ingeniería Informática-Grau en Enginyeria Informàtica	es_ES
dc.title	Comparison between statistical and neuronal models for machine translation	es_ES
dc.type	Proyecto/Trabajo fin de carrera/grado	es_ES
dc.rights.accessRights	Abierto	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica	es_ES
dc.description.bibliographicCitation	Llorens Ripollés, JM. (2018). Comparison between statistical and neuronal models for machine translation. http://hdl.handle.net/10251/107663	es_ES
dc.description.accrualMethod	TFGM	es_ES
dc.relation.pasarela	TFGM\87963	es_ES

Este ítem aparece en la(s) siguiente(s) colección(ones)

ETSINF - Trabajos académicos [4838]
Escola Tècnica Superior d'Enginyeria Informàtica

Mostrar el registro sencillo del ítem

Comparison between statistical and neuronal models for machine translation

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Buscar en RiuNet

Listar

Todo RiuNet

Esta colección

Mi cuenta

Estadísticas

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Comparison between statistical and neuronal models for machine translation

Ficheros en el ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)