Resumen:
|
[CA] En els darrers anys, la intel-ligencia artificial (IA) esta experimentant un creixement exponencial. L'apogeu del Big Data juntament amb la popularització de l'aprenentatge profund basat en xarxes neuronals han estat ...[+]
[CA] En els darrers anys, la intel-ligencia artificial (IA) esta experimentant un creixement exponencial. L'apogeu del Big Data juntament amb la popularització de l'aprenentatge profund basat en xarxes neuronals han estat els elements detonants d'aquesta revolució tecnologica que cada día avarn;a a passos més de gegant. Un dels camps principals de recerca dins de la IA és el Processament del Llenguatge Natural (PLN), ja que poder entendre i manipular el llenguatge al nostre gust és un repte diferencial per a la nostra especie. En específic, la branca del PLN que es tractara en aquest projecte és la Traducció Automatica (TA).
Actualment, la traducció automatica esta assolint una qualitat similar a la d'un traductor huma i s'han registrat resultats excel-lents per a molts parells de llengües. Tot i així, en molts casos no sempre és perfecta i cal la revisió de traductors humans professionals. Aquest procés de mesura de qualitat és tediós per als traductors i té un gran cost temporal i economic. L'objectiu d'aquest treball és automatitzar aquest procés estalviant molts costos.
Es preten entrenar un model que estime la qualitat d'una traducció sense fer servir una frase de referencia. Per fer-ho, caldra entrenar un model que aprenga a partir d'un conjunt de frases associades a una metrica de qualitat. En aquest cas, la metrica que es vol predir representa l'esfon; de posedició necessari perque la frase tradui:da siga correcta. Concretament, la metrica utilitzada és TER (per les sigles en angles "Translation Error Rate"que significa ratio d'error en la traducció). Les arquitectures dels models es basaran en models del llenguatge d'aprenentatge profund preentrenats amb moltes dades.
[-]
[ES] En los últimos años, la inteligencia artificial (IA) está experimentando un crecimiento exponencial. El auge del Big Data junto a la popularización del Aprendizaje Profundo basado en redes neuronales han sido los ...[+]
[ES] En los últimos años, la inteligencia artificial (IA) está experimentando un crecimiento exponencial. El auge del Big Data junto a la popularización del Aprendizaje Profundo basado en redes neuronales han sido los elementos detonantes de esta revolución tecnológica que cada día avanza a pasos más agigantados. Uno de los campos principales de investigación dentro de la IA es el Procesado del Lenguaje Natural (PLN), ya que poder entender y manipular el lenguaje a nuestro antojo es un reto diferencial para nuestra especie. En específico, la rama del PLN que se tratará en este proyecto es la Traducción Automática (TA).
Actualmente, la traducción automática está alcanzando una calidad similar a la de un traductor humano y se han registrado excelentes resultados para muchos pares de lenguas. Aún así, en muchos casos no siempre es perfecta y se necesita la revisión de traductores humanos profesionales. Este proceso de medición de calidad es tedioso para los traductores y tiene un gran coste temporal y económico. El objetivo de este trabajo es automatizar este proceso ahorrando muchos de estos costes.
Se quiere entrenar un modelo que prediga la calidad de las traducciones automáticamente. El modelo aprende a partir de una métrica automática de la calidad de las traducciones que representa el esfuerzo de posedición que se necesita para que la frase creada automáticamente quede como la frase traducida por el traductor humano, en este caso la métrica
utilizada es TER (por sus siglas en inglés "Translation Error Rate" que significa ratio de error en la traducción). Las arquitecturas de los modelos se basarán en modelos del lenguaje de aprendizaje profundo preentrenados con muchos datos.
El corpus que se va a utilizar para entrenar estos modelos está compuesto por datos del proyecto europeo Europeana Translate, el cual tiene cómo misión fortalecer el sector del patrimonio cultural en su proceso de transformación digital.
[-]
[EN] In recent years, artificial intelligence (AI) is experiencing exponential growth. The rise of Big Data together with the popularisation of Deep Learning based on neural networks have been the triggering elements of ...[+]
[EN] In recent years, artificial intelligence (AI) is experiencing exponential growth. The rise of Big Data together with the popularisation of Deep Learning based on neural networks have been the triggering elements of this technological revolution that is advancing by leaps and bounds every day. One of the main fields of research within AI is Natural Language Processing
(NLP), since being able to understand and manipulate language at our whim is a differential challenge for our species. Specifically, the branch of NLP that will be addressed in this project is Machine Translation (MT).
Currently, machine translation is reaching a quality similar to that of a human translator and excellent results have been recorded for many language pairs. Still, in many cases, it is not always perfect and needs to be reviewed by professional human translators. This quality measurement process is tedious for translators and has a high time and financial cost. The aim of this work is to automate this process and save many of these costs.
We want to train a model that predicts the quality of the translations with generated by a machine translation system. The model learns from a metric of translation quality that represents the post-editing effort needed to make the automatically created sentence looks like the sentence translated by the human translator, in this case, the metric used is TER (Translation Error Rate). The model architectures will be based on data-intensive, pre-trained deep learning language models.
The corpus to be used to train these models is composed of data from the European project Europeana Translate, which has the mission to strengthen the cultural heritage sector in its digital transformation process.
[-]
|