- -

Machine Translation of Open Educational Resources: Evaluating Translation Quality and the Transition to Neural Machine Translation

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Compartir/Enviar a

Citas

Estadísticas

  • Estadisticas de Uso

Machine Translation of Open Educational Resources: Evaluating Translation Quality and the Transition to Neural Machine Translation

Mostrar el registro sencillo del ítem

Ficheros en el ítem

dc.contributor.advisor Juan Císcar, Alfonso es_ES
dc.contributor.advisor Civera Saiz, Jorge es_ES
dc.contributor.advisor Martínez Villaronga, Adrià Agustí es_ES
dc.contributor.author Garcés Díaz-Munío, Gonzalo Vicente es_ES
dc.date.accessioned 2020-09-04T06:52:34Z
dc.date.available 2020-09-04T06:52:34Z
dc.date.created 2020-07-24
dc.date.issued 2020-09-04 es_ES
dc.identifier.uri http://hdl.handle.net/10251/149416
dc.description El proyecto ha recibido el premio de la Cátedra Stadler en el área de "Aplicaciones de ciencia de datos (minería de datos)"
dc.description.abstract [EN] Open Education has become a revolutionary approach towards the future of education, enabling worldwide free access to a huge volume of Open Educational Resources (OER). The rapid growth of OER and MOOCs has not gone unnoticed by governments and international organizations, as is demonstrated by the UNESCO-sponsored 2012 Paris OER Declaration and the 2017 Ljubljana OER Action Plan, the latter addressing ve strategic actions to support the mainstreaming of OER around UN Sustainable Development Goal 4 (SDG4) on Quality Education . In the EU, the European Commission's 2013 Opening up Education agenda recognized that the EU lacks a critical mass of good quality educational content in multiple languages. Although there is a clear need for multilingual services in Open Education, current OER platforms and MOOCs do not o er multilingual communication and seldom o er multilingual content. Based on this evidence, this master's thesis aims to foster Open Education with contributions on machine translation for the provision of multilingual access to OER and MOOC platforms. With the trans-disciplinary tools of automatic speech recognition (ASR), machine translation (MT), text-to-speech synthesis (TTS), and dialogue, multilingual access to OER will be possible for everyone regardless of their mother tongue or learning abilities. Firstly, we present work on the evaluation of MT, including intelligent interaction approaches to post-editing, as carried out in the framework of EU project transLectures. Evaluating MT is still an open question, and so exploring di erent ways to address this e ectively and applying them in real scenarios has a clear interest. The results obtained con rm that the intelligent interaction approach can make postediting automatic transcriptions and translations even more cost-e ective. Secondly, we present work on developing state-of-the-art neural machine translation (NMT) systems to transition from the previous phrase-based MT models. The new NMT paradigms provide signi cant improvements in MT quality, and so at this point it is key to move towards them, research on how to improve them, and, again, apply them in real scenarios to verify their usefulness. Our work resulted in a rstrank classi cation in an international evaluation campaign on MT, and we show the impact that these new NMT systems have in real OER scenarios. A structured comparison shows that our results are on par with the high quality of recent Google Translate results, and also shows that it is possible to go beyond Google Translate's quality through domain adaptation of MT systems. es_ES
dc.description.abstract [ES] La Educación Abierta es cada vez más un modelo revolucionario de cara al futuro de la educación, permitiendo el acceso libre a nivel global a un enorme volumen de Recursos Educativos Abiertos (REA). El rápido crecimiento de los REA y de los cursos MOOC no ha pasado desapercibido para los gobiernos y las organizaciones internacionales, como se comprueba por la Declaración de París sobre los REA de 2012 y el Plan de Acción de Liubliana sobre los REA de 2017. Este último propone cinco acciones estratégicas para la implantación de los REA en torno al 4.o Objetivo de Desarrollo Sostenible de la ONU (ODS4) sobre Educación de Calidad . En la UE, la agenda Apertura de la educación de la Comisión Europea (2013) reconoce que la UE carece de una masa crítica de contenidos educativos de alta calidad en múltiples lenguas. A pesar de la clara necesidad de servicios multilingües para la Educación Abierta, las plataformas actuales de REA y MOOC no ofrecen comunicación multilingüe y raramente ofrecen contenidos multilingües. En base a esta evidencia, este Trabajo de Fin de Máster propone fomentar la Educación Abierta con contribuciones sobre la traducción automática (TA) para la provisión de acceso multilingüe a plataformas de REA y MOOC. Las herramientas interdisciplinares del reconocimiento automático del habla, la traducción automática, la síntesis de texto a voz y las tecnologías del diálogo harán posible el acceso multilingüe a los REA para todos, independientemente de la lengua materna o de las capacidades de aprendizaje de cada uno. En primer lugar, presentamos un trabajo sobre la evaluación de la TA, incluyendo métodos de interacción inteligente para la postedición, en el marco del proyecto europeo transLectures. La evaluación de la TA es aún una cuestión abierta, de forma que explorar diferentes vías para abordarla de forma efectiva y aplicarlas en escenarios reales tiene un claro interés. Mostraremos resultados que con rman que la interacción inteligente reduce el esfuerzo necesario para la postedición de transcripciones y traducciones automáticas. En segundo lugar, presentamos un esfuerzo de desarrollo de sistemas de traducción automática neuronal (TAN) punteros para superar los anteriores modelos de TA basada en frases. Los nuevos paradigmas de la TAN aportan mejoras signi cativas en la calidad de la TA, y es fundamental adoptarlos, investigar sobre cómo mejorarlos, y, de nuevo, aplicarlos en escenarios reales para veri car su utilidad. El sistema de TAN desarrollado se ha clasi cado entre los mejores en una competición internacional de TA, y aquí mostramos la repercusión que tienen estos nuevos sistemas de TAN en escenarios reales de REA. Nos hemos comparado y hemos comprobado que nuestros resultados compiten con la alta calidad de los resultados más recientes de Google Translate, y que es posible ir más allá de esta calidad con la adaptación al dominio de los sistemas de TA. es_ES
dc.description.abstract [CA] L'Educació Oberta ha esdevingut un model revolucionari de cara al futur de l'educació, permetent l'accés lliure a nivell global a un enorme volum de Recursos Educatius Oberts (REO). El ràpid creixement dels REO i dels cursos MOOC no ha passat desapercebut per als governs i les organitzacions internacionals, com es comprova per la Declaració de París sobre els REO de 2012 i el Pla d'Acció de Ljubljana sobre els REO de 2017. Aquest últim proposa cinc accions estratègiques per a la implantació dels REO entorn del 4t Objectiu de Desenvolupament Sostenible de l'ONU (ODS4) sobre Educació de Qualitat . A l'UE, l'agenda Obertura de l'educació de la Comissió Europea (2013) reconeix que a l'UE manca una massa crítica de continguts educatius d'alta qualitat en múltiples llengües. Malgrat la clara necessitat de serveis multilingües per a l'Educació Oberta, les plataformes actuals de REO i MOOC no ofereixen comunicació multilingüe i rarament ofereixen continguts multilingües. Sobre la base d'aquesta evidència, aquest Treball de Fi de Màster es proposa fomentar l'Educació Oberta amb contribucions sobre la traducció automàtica (TA) per a la provisió d'accés multilingüe a plataformes de REO i MOOC. Les eines interdisciplinàries del reconeixement automàtic de la parla, la traducció automàtica, la síntesi de text a veu i les tecnologies del diàleg faran possible l'accés multilingüe als REO per a tots, independentment de la llengua materna o de les destreses d'aprenentatge. En primer lloc, presentem un treball sobre l'avaluació de la TA, incloent-hi mètodes d'interacció intel·ligent per a la postedició, en el marc del projecte europeu transLectures. L'avaluació de la TA és encara una qüestió oberta, de manera que explorar diferents vies per a abordar-la de forma efectiva i aplicar-les en escenaris reals té un interés clar. Els resultats obtinguts con rmen que la interacció intel·ligent redueix l'esforç necessari per a la postedició de transcripcions i traduccions automàtiques. En segon lloc, presentem el desenvolupament de sistemes de traducció automàtica neuronal (TAN) punters per a superar els anteriors models de TA basada en frases. Els nous paradigmes de la TAN aporten millores signi catives en la qualitat de la TA, i és fonamental abraçar-los, investigar sobre com millorar-los, i, novament, aplicarlos en escenaris reals per a veri car-ne la utilitat. El sistema de TAN desenvolupat s'ha classi cat entre els millors en una competició internacional de TA, i ací mostrem la repercussió que tenen aquests nous sistemes de TAN en escenaris reals de REO. Ens hem comparat i hem comprovat que els nostres resultats competeixen amb l'alta qualitat dels resultats més recents de Google Translate, i que és possible anar més enllà d'aquesta qualitat amb l'adaptació al domini dels sistemes de TA. es_ES
dc.description.abstract [FR] L'éducation ouverte est devenue un modèle révolutionnaire pour le futur de l'éducation, permettant l'accès libre au niveau mondial à un immense volume de ressources éducatives libres (REL). La croissance rapide des REL et des cours MOOC a été notée par les gouvernements et les organisations internationales, comme nous pouvons le voir dans la Déclaration de Paris sur les REL 2012 et le Plan d'action de Ljubljana sur les REL 2017. Ce dernier propose cinq actions stratégiques pour l'implantation des REL autour du 4ème objectif de développement durable de l'ONU (ODD4) sur l' Éducation de qualité . Au niveau de l'UE, le programme Ouvrir l'éducation de la Commission Européenne (2013) reconnaît la manque d'une masse critique de contenus éducatifs d'haute qualité en plusieures langues. Malgré une claire nécessité de services multilingues pour l'éducation ouverte, les plateformes actuelles de REL et MOOC n'o rent pas de communication multilingue et rarement de contenus multilingues. Sur cette évidence, ce projet de master prétend promouvoir l'éducation ouverte avec des contributions sur la traduction automatique (TA) pour fournir d'accès multilingue les plateformes de REL et MOOC. Les outils interdisciplinaires de la reconnaissance automatique de la parole, la traduction automatique, la synthèse vocale et les technologies du dialogue rendront possible l'accès multilingue aux REL pour tous, indépendamment de la langue maternelle ou des capacités d'apprentissage. En premier lieu, nous présentons notre travail sur l'évaluation et la post-édition de la TA, avec des méthodes d'interaction intelligente pour la post-édition, dans le cadre du projet européen transLectures. L'évaluation de la TA est encore une question ouverte, ce qui signi e que l'exploration des diverses voies pour l'aborder d'une manière e ective a un intérêt clair. Les résultats obtenus con rment que l'interaction intelligente réduit l'e ort nécessaire pour la post-édition de transcriptions et traductions automatiques. En deuxième lieu, nous présentons notre développement de systèmes de traduction automatique neuronale (TAN) de pointe pour dépasser les antérieurs modèles de TA basée sur les séquences de mots. Les nouveaux paradigmes de la TAN apportent des améliorations signi catives de la qualité de la TA, et il est donc fondamentale de les adopter, de rechercher sur la façon de les améliorer et aussi de les appliquer dans des environnements réels pour en véri er l'utilité. Le système de TAN développé a été classi é entre les meilleurs dans une compétition internationale de TA, et ici nous montrons l'impact que ces nouveaux systèmes de TAN ont dans des environnements réels de REL. Avec une comparaison systématique, nous avons véri é que nos résultats rivalisent avec l'haute qualité des résultats les plus récents de Google Translate, et qu'il est possible de dépasser cette qualité avec l'adaptation au domaine des systèmes TA. es_ES
dc.description.sponsorship The research leading to these results has received funding from the European Union's Seventh Framework Programme (FP7/2007-2013) under grant agreement no. 287755 (transLectures), Competitiveness and Innovation Framework Programme (CIP) under grant agreement no. 621030 (EMMA) and Horizon 2020 research and innovation programme under grant agreement no. 761758 (X5gon); from the Government of Spain's research projects iTrans2 (ref. TIN2009-14511, MICINN/FEDER EU) and MORE (ref. TIN2015-68326-R, MINECO/FEDER EU); and from the Universitat Politècnica de València's PAID-01-17 R&D support programme. es_ES
dc.format.extent 140 es_ES
dc.language Inglés es_ES
dc.publisher Universitat Politècnica de València es_ES
dc.rights Reconocimiento - Compartir igual (by-sa) es_ES
dc.subject Traducció automàtica neuronal es_ES
dc.subject Avaluació de la qualitat de la traducció automàtica es_ES
dc.subject Recursos educatius oberts es_ES
dc.subject Neural Machine Translation es_ES
dc.subject Evaluation of Machine Translation Quality es_ES
dc.subject Open Educational Resources es_ES
dc.subject.classification LENGUAJES Y SISTEMAS INFORMATICOS es_ES
dc.subject.other Máster Universitario en Inteligencia Artificial, Reconocimiento de Formas e Imagen Digital-Màster Universitari en Intel·Ligència Artificial: Reconeixement de Formes i Imatge Digital es_ES
dc.title Machine Translation of Open Educational Resources: Evaluating Translation Quality and the Transition to Neural Machine Translation es_ES
dc.title.alternative Traducción automática de recursos educativos abiertos: Evaluación de la calidad de la traducción y la transición hacia la traducción automáticaneuronal es_ES
dc.type Tesis de máster es_ES
dc.relation.projectID info:eu-repo/grantAgreement/EC/FP7/287755/EU/Transcription and Translation of Video Lectures/ es_ES
dc.relation.projectID info:eu-repo/grantAgreement/MICINN//TIN2009-14511/ES/Traduccion De Textos Y Transcripcion De Voz Interactivas/ es_ES
dc.relation.projectID info:eu-repo/grantAgreement/EC/H2020/761758/EU/X5gon: Cross Modal, Cross Cultural, Cross Lingual, Cross Domain, and Cross Site Global OER Network/ es_ES
dc.relation.projectID info:eu-repo/grantAgreement/MINECO//TIN2015-68326-R/ES/RECURSOS MULTILINGUES ABIERTOS PARA EDUCACION/ es_ES
dc.relation.projectID info:eu-repo/grantAgreement/UPV//PAID-01-17/ es_ES
dc.relation.projectID info:eu-repo/grantAgreement/EC/CIP/621030/EU/European Multiple MOOC Aggregator/EMMA/
dc.rights.accessRights Abierto es_ES
dc.contributor.affiliation Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació es_ES
dc.description.bibliographicCitation Garcés Díaz-Munío, GV. (2020). Machine Translation of Open Educational Resources: Evaluating Translation Quality and the Transition to Neural Machine Translation. Universitat Politècnica de València. http://hdl.handle.net/10251/149416 es_ES
dc.description.accrualMethod TFGM es_ES
dc.relation.pasarela TFGM\121701 es_ES
dc.contributor.funder European Commission es_ES
dc.contributor.funder Ministerio de Ciencia e Innovación es_ES
dc.contributor.funder European Regional Development Fund es_ES
dc.contributor.funder Ministerio de Economía y Competitividad es_ES
dc.contributor.funder Universitat Politècnica de València es_ES
dc.description.award Premiado


Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem