Resumen:
|
[ES] Cada día podemos ver cómo aumenta el uso del aprendizaje automático en nuestro día a día, especialmente en el campo del procesamiento del lenguaje natural, el cual ha mostrado ser muy valioso en muchos campos. Los ...[+]
[ES] Cada día podemos ver cómo aumenta el uso del aprendizaje automático en nuestro día a día, especialmente en el campo del procesamiento del lenguaje natural, el cual ha mostrado ser muy valioso en muchos campos. Los modelos de última generación han evolucionado hasta ser muy buenos en la traducción pero, el problema principal de este campo son los excasos datasets paralelos de los que disponemos para el entrenamiento al ser muy costosos de crear. Existen varios corpus voluminosos en las lenguas más populares, pero incluso estos no son del todo suficientes en algunas aplicaciones. En este Trabajo de Fin de Grado nos centraremos en estudiar como afecta al rendimiento del entrenamiento del modelo el aumento de datos del corpus paralelo mediante la técnica llamada back-translation, la cual consta de dos fases, en la primera se entrenará un modelo para traducir un corpus monolingue externo y, en la segunda fase, se usará ese nuevo corpus paralelo sintéticamente generado junto al principal para entrenar el modelo final. El objetivo final es comprobar que podemos mejorar el rendimiento de nuestro modelo usando esta técnica para generar nuevos datasets, asegurando que dicha tecnología se podría utilizar para entrenar modelos de pares de lenguas con recursos preprocesados limitados. Para ello generamos distintos corpus sintéticos y, a continuación, utilizando la libreria OpenNMT entrenamos varios modelos combinando distintas proporciones de estos datasets junto a un corpus paralelo estándar, obteniendo al final unos resultados muy prometedores y concluyendo que dicha técnica es muy esperanzadora para el campo del procesamiento del lenguaje natural.
[-]
[EN] Every day we can see how the use of machine learning increases in our day to day life, especially in the field of natural language processing, which has been shown to be very valuable in many fields. The latest ...[+]
[EN] Every day we can see how the use of machine learning increases in our day to day life, especially in the field of natural language processing, which has been shown to be very valuable in many fields. The latest generation models have evolved to be very good at translation, but the main problem with this field are the few parallel datasets we have for training which are very expensive to create. There are several bulky corpus in the most popular languages, but even these are not quite sufficient in some applications. In this Final Degree Project we will focus on studying how it affects the training performance of the model increasing the data from the parallel corpus through the technique called back-translation, which consists of two phases, in the first phase, a model will be trained to translate an external monolingual corpus and, in the second phase, that new synthetically generated parallel corpus next to the main one will be used to train the final model. The goal is to check that we can improve the performance of our model by using this technique to generate new datasets, ensuring that such technology could be used to train language pair models with limited pre-processed resources. For this we had generated different synthetic corpora and then by using the OpenNMT library we trained several models combining different proportions of these datasets next to a standard parallel corpus, finally obtaining very promising results and concluding that this technique it is very hopeful for the field of natural language processing.
[-]
[CA] Cada dia podem veure con augmenta l’ús de l’aprenentatge automàtic en el nostre
dia a dia, especialment en el camp del processament de llenguatge natural, el qual ha
mostrat ser molt valuós en molts camps. Els models ...[+]
[CA] Cada dia podem veure con augmenta l’ús de l’aprenentatge automàtic en el nostre
dia a dia, especialment en el camp del processament de llenguatge natural, el qual ha
mostrat ser molt valuós en molts camps. Els models d’última generació han evolucionat
fins a ser molt bons en la traducció però, el problema principal d’aquest camp són els
excasos datasets paral·lels dels que disposem per a l’entrenament a l’ésser molt costosos
de crear. Hi ha diversos corpus voluminosos en les llengües més populars, però fins i tot
aquests no són del tot suficients en algunes aplicacions. En aquest Treball de Fi de Grau
ens centrarem en estudiar com afecta el rendiment del entrenament del model l’augment
de dades del corpus paral·lel mitjançant la tècnica anomenada back-translation, la qual
consta de dues fases, en la primera fase s’entrenarà un model per a traduir un corpus
monolingüe extern i, en la segona fase es darà servir aquest nou corpus paral·lel sintèticament generat al costat del principal per entrenar el model final. L’objectiu final es
comprovar que podem millorar el rendiment del nostre model utilitzant aquesta tècnica
per a generar uns nous datasets, assegurant per tant, que aquesta tecnología es podria
utilitzar per a entrenar models de parells de llengües amb els recursos limitats. Per a això generàrem diferents corpus sintètics i, a continuació, utilitzant la llibreria OpenNMT
entrenàrem diversos models combinant diferents proporcions d’aquests datasets al costat d’un corpus paral·lel estàndard, obtenint a la fin uns resultats molt prometedors i
concloent que aquesta tècnica és molt esperançadora per al camp del processament de
llenguatge natural.
[-]
|