Using back-translation for machine translation based on transformer

Mazurkevych, Vladyslav

Identificarse

Buscar en RiuNet

Listar

Todo RiuNet
Esta colección

Mi cuenta

Acceder

Estadísticas

Ver Estadísticas de uso

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Using back-translation for machine translation based on transformer

Mostrar el registro sencillo del ítem

Ficheros en el ítem

Nombre: Mazurkevych - Usando ...

Tamaño: 655.2Kb

Formato: PDF

Solicitar una copia al autor

dc.contributor.advisor	Casacuberta Nolla, Francisco	es_ES
dc.contributor.author	Mazurkevych, Vladyslav	es_ES
dc.date.accessioned	2021-10-06T10:10:41Z
dc.date.available	2021-10-06T10:10:41Z
dc.date.created	2021-09-16
dc.date.issued	2021-10-06	es_ES
dc.identifier.uri	http://hdl.handle.net/10251/173966
dc.description.abstract	[ES] Cada día podemos ver cómo aumenta el uso del aprendizaje automático en nuestro día a día, especialmente en el campo del procesamiento del lenguaje natural, el cual ha mostrado ser muy valioso en muchos campos. Los modelos de última generación han evolucionado hasta ser muy buenos en la traducción pero, el problema principal de este campo son los excasos datasets paralelos de los que disponemos para el entrenamiento al ser muy costosos de crear. Existen varios corpus voluminosos en las lenguas más populares, pero incluso estos no son del todo suficientes en algunas aplicaciones. En este Trabajo de Fin de Grado nos centraremos en estudiar como afecta al rendimiento del entrenamiento del modelo el aumento de datos del corpus paralelo mediante la técnica llamada back-translation, la cual consta de dos fases, en la primera se entrenará un modelo para traducir un corpus monolingue externo y, en la segunda fase, se usará ese nuevo corpus paralelo sintéticamente generado junto al principal para entrenar el modelo final. El objetivo final es comprobar que podemos mejorar el rendimiento de nuestro modelo usando esta técnica para generar nuevos datasets, asegurando que dicha tecnología se podría utilizar para entrenar modelos de pares de lenguas con recursos preprocesados limitados. Para ello generamos distintos corpus sintéticos y, a continuación, utilizando la libreria OpenNMT entrenamos varios modelos combinando distintas proporciones de estos datasets junto a un corpus paralelo estándar, obteniendo al final unos resultados muy prometedores y concluyendo que dicha técnica es muy esperanzadora para el campo del procesamiento del lenguaje natural.	es_ES
dc.description.abstract	[EN] Every day we can see how the use of machine learning increases in our day to day life, especially in the field of natural language processing, which has been shown to be very valuable in many fields. The latest generation models have evolved to be very good at translation, but the main problem with this field are the few parallel datasets we have for training which are very expensive to create. There are several bulky corpus in the most popular languages, but even these are not quite sufficient in some applications. In this Final Degree Project we will focus on studying how it affects the training performance of the model increasing the data from the parallel corpus through the technique called back-translation, which consists of two phases, in the first phase, a model will be trained to translate an external monolingual corpus and, in the second phase, that new synthetically generated parallel corpus next to the main one will be used to train the final model. The goal is to check that we can improve the performance of our model by using this technique to generate new datasets, ensuring that such technology could be used to train language pair models with limited pre-processed resources. For this we had generated different synthetic corpora and then by using the OpenNMT library we trained several models combining different proportions of these datasets next to a standard parallel corpus, finally obtaining very promising results and concluding that this technique it is very hopeful for the field of natural language processing.	es_ES
dc.description.abstract	[CA] Cada dia podem veure con augmenta l’ús de l’aprenentatge automàtic en el nostre dia a dia, especialment en el camp del processament de llenguatge natural, el qual ha mostrat ser molt valuós en molts camps. Els models d’última generació han evolucionat fins a ser molt bons en la traducció però, el problema principal d’aquest camp són els excasos datasets paral·lels dels que disposem per a l’entrenament a l’ésser molt costosos de crear. Hi ha diversos corpus voluminosos en les llengües més populars, però fins i tot aquests no són del tot suficients en algunes aplicacions. En aquest Treball de Fi de Grau ens centrarem en estudiar com afecta el rendiment del entrenament del model l’augment de dades del corpus paral·lel mitjançant la tècnica anomenada back-translation, la qual consta de dues fases, en la primera fase s’entrenarà un model per a traduir un corpus monolingüe extern i, en la segona fase es darà servir aquest nou corpus paral·lel sintèticament generat al costat del principal per entrenar el model final. L’objectiu final es comprovar que podem millorar el rendiment del nostre model utilitzant aquesta tècnica per a generar uns nous datasets, assegurant per tant, que aquesta tecnología es podria utilitzar per a entrenar models de parells de llengües amb els recursos limitats. Per a això generàrem diferents corpus sintètics i, a continuació, utilitzant la llibreria OpenNMT entrenàrem diversos models combinant diferents proporcions d’aquests datasets al costat d’un corpus paral·lel estàndard, obtenint a la fin uns resultats molt prometedors i concloent que aquesta tècnica és molt esperançadora per al camp del processament de llenguatge natural.	es_ES
dc.format.extent	68	es_ES
dc.language	Inglés	es_ES
dc.publisher	Universitat Politècnica de València	es_ES
dc.rights	Reserva de todos los derechos	es_ES
dc.subject	Corpus monolingüe	es_ES
dc.subject	BERT	es_ES
dc.subject	PLN	es_ES
dc.subject	Aprendizaje Automático	es_ES
dc.subject	Transformadores	es_ES
dc.subject	Traducción inversa	es_ES
dc.subject	Traducción automática	es_ES
dc.subject	Monolingual Corpus	es_ES
dc.subject	NLP	es_ES
dc.subject	Machine Learning	es_ES
dc.subject	Transformers	es_ES
dc.subject	Back-Translation	es_ES
dc.subject	Machine Translation	es_ES
dc.subject.classification	LENGUAJES Y SISTEMAS INFORMATICOS	es_ES
dc.subject.other	Grado en Ingeniería Informática-Grau en Enginyeria Informàtica	es_ES
dc.title	Using back-translation for machine translation based on transformer	es_ES
dc.title.alternative	Usando la traducción inversa para la traducción automática basada en transformador	es_ES
dc.type	Proyecto/Trabajo fin de carrera/grado	es_ES
dc.rights.accessRights	Cerrado	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica	es_ES
dc.description.bibliographicCitation	Mazurkevych, V. (2021). Using back-translation for machine translation based on transformer. Universitat Politècnica de València. http://hdl.handle.net/10251/173966	es_ES
dc.description.accrualMethod	TFGM	es_ES
dc.relation.pasarela	TFGM\141163	es_ES

Este ítem aparece en la(s) siguiente(s) colección(ones)

ETSINF - Trabajos académicos [4769]
Escola Tècnica Superior d'Enginyeria Informàtica

Mostrar el registro sencillo del ítem

Using back-translation for machine translation based on transformer

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Buscar en RiuNet

Listar

Todo RiuNet

Esta colección

Mi cuenta

Estadísticas

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Using back-translation for machine translation based on transformer

Ficheros en el ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)