- -

Using back-translation for machine translation based on transformer

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Compartir/Enviar a

Citas

Estadísticas

  • Estadisticas de Uso

Using back-translation for machine translation based on transformer

Mostrar el registro sencillo del ítem

Ficheros en el ítem

dc.contributor.advisor Casacuberta Nolla, Francisco es_ES
dc.contributor.author Mazurkevych, Vladyslav es_ES
dc.date.accessioned 2021-10-06T10:10:41Z
dc.date.available 2021-10-06T10:10:41Z
dc.date.created 2021-09-16
dc.date.issued 2021-10-06 es_ES
dc.identifier.uri http://hdl.handle.net/10251/173966
dc.description.abstract [ES] Cada día podemos ver cómo aumenta el uso del aprendizaje automático en nuestro día a día, especialmente en el campo del procesamiento del lenguaje natural, el cual ha mostrado ser muy valioso en muchos campos. Los modelos de última generación han evolucionado hasta ser muy buenos en la traducción pero, el problema principal de este campo son los excasos datasets paralelos de los que disponemos para el entrenamiento al ser muy costosos de crear. Existen varios corpus voluminosos en las lenguas más populares, pero incluso estos no son del todo suficientes en algunas aplicaciones. En este Trabajo de Fin de Grado nos centraremos en estudiar como afecta al rendimiento del entrenamiento del modelo el aumento de datos del corpus paralelo mediante la técnica llamada back-translation, la cual consta de dos fases, en la primera se entrenará un modelo para traducir un corpus monolingue externo y, en la segunda fase, se usará ese nuevo corpus paralelo sintéticamente generado junto al principal para entrenar el modelo final. El objetivo final es comprobar que podemos mejorar el rendimiento de nuestro modelo usando esta técnica para generar nuevos datasets, asegurando que dicha tecnología se podría utilizar para entrenar modelos de pares de lenguas con recursos preprocesados limitados. Para ello generamos distintos corpus sintéticos y, a continuación, utilizando la libreria OpenNMT entrenamos varios modelos combinando distintas proporciones de estos datasets junto a un corpus paralelo estándar, obteniendo al final unos resultados muy prometedores y concluyendo que dicha técnica es muy esperanzadora para el campo del procesamiento del lenguaje natural. es_ES
dc.description.abstract [EN] Every day we can see how the use of machine learning increases in our day to day life, especially in the field of natural language processing, which has been shown to be very valuable in many fields. The latest generation models have evolved to be very good at translation, but the main problem with this field are the few parallel datasets we have for training which are very expensive to create. There are several bulky corpus in the most popular languages, but even these are not quite sufficient in some applications. In this Final Degree Project we will focus on studying how it affects the training performance of the model increasing the data from the parallel corpus through the technique called back-translation, which consists of two phases, in the first phase, a model will be trained to translate an external monolingual corpus and, in the second phase, that new synthetically generated parallel corpus next to the main one will be used to train the final model. The goal is to check that we can improve the performance of our model by using this technique to generate new datasets, ensuring that such technology could be used to train language pair models with limited pre-processed resources. For this we had generated different synthetic corpora and then by using the OpenNMT library we trained several models combining different proportions of these datasets next to a standard parallel corpus, finally obtaining very promising results and concluding that this technique it is very hopeful for the field of natural language processing. es_ES
dc.description.abstract [CA] Cada dia podem veure con augmenta l’ús de l’aprenentatge automàtic en el nostre dia a dia, especialment en el camp del processament de llenguatge natural, el qual ha mostrat ser molt valuós en molts camps. Els models d’última generació han evolucionat fins a ser molt bons en la traducció però, el problema principal d’aquest camp són els excasos datasets paral·lels dels que disposem per a l’entrenament a l’ésser molt costosos de crear. Hi ha diversos corpus voluminosos en les llengües més populars, però fins i tot aquests no són del tot suficients en algunes aplicacions. En aquest Treball de Fi de Grau ens centrarem en estudiar com afecta el rendiment del entrenament del model l’augment de dades del corpus paral·lel mitjançant la tècnica anomenada back-translation, la qual consta de dues fases, en la primera fase s’entrenarà un model per a traduir un corpus monolingüe extern i, en la segona fase es darà servir aquest nou corpus paral·lel sintèticament generat al costat del principal per entrenar el model final. L’objectiu final es comprovar que podem millorar el rendiment del nostre model utilitzant aquesta tècnica per a generar uns nous datasets, assegurant per tant, que aquesta tecnología es podria utilitzar per a entrenar models de parells de llengües amb els recursos limitats. Per a això generàrem diferents corpus sintètics i, a continuació, utilitzant la llibreria OpenNMT entrenàrem diversos models combinant diferents proporcions d’aquests datasets al costat d’un corpus paral·lel estàndard, obtenint a la fin uns resultats molt prometedors i concloent que aquesta tècnica és molt esperançadora per al camp del processament de llenguatge natural. es_ES
dc.format.extent 68 es_ES
dc.language Inglés es_ES
dc.publisher Universitat Politècnica de València es_ES
dc.rights Reserva de todos los derechos es_ES
dc.subject Corpus monolingüe es_ES
dc.subject BERT es_ES
dc.subject PLN es_ES
dc.subject Aprendizaje Automático es_ES
dc.subject Transformadores es_ES
dc.subject Traducción inversa es_ES
dc.subject Traducción automática es_ES
dc.subject Monolingual Corpus es_ES
dc.subject NLP es_ES
dc.subject Machine Learning es_ES
dc.subject Transformers es_ES
dc.subject Back-Translation es_ES
dc.subject Machine Translation es_ES
dc.subject.classification LENGUAJES Y SISTEMAS INFORMATICOS es_ES
dc.subject.other Grado en Ingeniería Informática-Grau en Enginyeria Informàtica es_ES
dc.title Using back-translation for machine translation based on transformer es_ES
dc.title.alternative Usando la traducción inversa para la traducción automática basada en transformador es_ES
dc.type Proyecto/Trabajo fin de carrera/grado es_ES
dc.rights.accessRights Cerrado es_ES
dc.contributor.affiliation Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació es_ES
dc.contributor.affiliation Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica es_ES
dc.description.bibliographicCitation Mazurkevych, V. (2021). Using back-translation for machine translation based on transformer. Universitat Politècnica de València. http://hdl.handle.net/10251/173966 es_ES
dc.description.accrualMethod TFGM es_ES
dc.relation.pasarela TFGM\141163 es_ES


Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem