[ES] La cuestión del uso de corpus monolingües para el entrenamiento de sistemas de traducción automática no supervisados es un asunto de notable relevancia en este mundo en continua globalización en que vivimos, debido ...[+]
[ES] La cuestión del uso de corpus monolingües para el entrenamiento de sistemas de traducción automática no supervisados es un asunto de notable relevancia en este mundo en continua globalización en que vivimos, debido principalmente a la escasez de corpus bilingües para la gran mayoría de pares de idiomas y a las limitaciones que esto presenta para el entrenamiento de sistemas de traducción automática.
Este TFM parte de los sistemas de traducción neuronal no supervisada creados por Artetxe et al. llamados Undreamt y Monoses, y aspira a explorar el uso de diversas arquitecturas neuronales cercanas al actual estado de la cuestión en el marco de dicho sistemas.
Se utilizarán para ello diversos de los corpus monolingües provenientes de la tarea de traducción WMT 2014, midiendo la calidad de las traducciones obtenidas mediante la métrica BLEU y buscando las mejores configuraciones para diversos pares de idiomas, comparándolas tanto como con el estado de la cuestión como con las métricas reportadas por Artetxe et al.
[-]
[EN] The use of monolingual corpora for training Unsupervised Machine Translation systems is a matter of notorious relevance in this wold in continuous globalization we live in, mainly due to the scarcity of bilingual ...[+]
[EN] The use of monolingual corpora for training Unsupervised Machine Translation systems is a matter of notorious relevance in this wold in continuous globalization we live in, mainly due to the scarcity of bilingual corpora for the great majority of language pairs and the serious limitation this represents for the training of Machine Translation systems.
This TFM takes as a starting point the unsupervised Neural Machine Translation systems created by Artetxe et al., named Undreamt and Monoses, and aims to explore, within the frame of said systems, the use of neural architectures that stand close to the current state of the art.
To do that the corpora used will be monolingual corpora from the WMT 2014 translation task, measuring the quality of the translations achieved using the BLEU metric and looking for the best configurations for various language pairs, comparing these both with the state of the art and with the metrics reported by Artetxe et al.
[-]
|