Resumen:
|
[EN] The problem of machine translation is particularly interesting in those languages for which, due to population, political relevance, isolation or other reasons, the amount of available resources is limited, where ...[+]
[EN] The problem of machine translation is particularly interesting in those languages for which, due to population, political relevance, isolation or other reasons, the amount of available resources is limited, where resources usually mean existing translations from or into any other language with a more advantageous situation. This problem is of current interest given that countries in these circumstances belong to international institutions where machine translation is proposed as a solution to multilateral meetings. It is a particularly important problem in the current paradigm, since the state of the art is constituted by statistical models that require large volumes of data to learn the underlying patterns of the language. In this TFG we propose to consider an artificial language, formally proposed in 2014, Toki Pona as a testbed that addresses the above problem. This minimalist language seeks to express the maximum number of meanings with minimal complexity. While Toki Pona is not intended, unlike Esperanto, as a language for international communication, it does share with it features such as simplicity of learning. Since its informal presentation on the web in 2001, the Toki Pona community has grown in number and activity, and there are resources with translations generated by it that will be used as a basis for learning a neural network for automatic translation. These resources are endorsed by the community so they can be considered reliable data in a machine learning process. An experimentation will obtain the results that will allow conclusions and possible lines of work to be drawn. In addition, the TFG proposes the design of a formal grammar, not existing so far, which will allow future studies using techniques other than neural network learning.
[-]
[ES] El problema de la traducción automática es particularmente interesante en aquellos idiomas para los que, por cuestiones de población, relevancia política, aislamiento u otros motivos, la cantidad de recursos disponibles ...[+]
[ES] El problema de la traducción automática es particularmente interesante en aquellos idiomas para los que, por cuestiones de población, relevancia política, aislamiento u otros motivos, la cantidad de recursos disponibles son limitados, donde por recursos habitualmente se entienden traducciones existentes de, o desde, el idioma a cualquier otro con situación más ventajosa. Actualmente, este problema es de interés dado que países en estas circunstancias pertenecen a instituciones internacionales donde se plantea la traducción automática como solución a las reuniones multilaterales. Es un problema especialmente importante en el paradigma actual, ya que el estado del arte lo constituyen modelos estadísticos que necesitan de grandes volúmenes de datos para poder aprender los patrones subyacentes del lenguaje.
En este TFG se plantea considerar un idioma artificial, propuesto formalmente en 2014, el Toki Pona como banco de prueba que aborde el problema anteriormente expuesto. Este idioma minimalista busca expresar el máximo de significados con una complejidad mínima. Si bien Toki Pona no se plantea, al contrario del Esperanto, como una lengua de comunicación internacional, sí comparte con él características como la sencillez de aprendizaje. Desde su presentación informal en la web en 2001, la comunidad Toki Pona ha crecido en número y actividad, existiendo recursos con traducciones generados por esta que se utilizarán como base para el aprendizaje de una red neuronal para la traducción automática. Estos recursos están avalados por la comunidad por lo que pueden considerarse datos fiables en un proceso de aprendizaje automático. Una experimentación obtendrá los resultados que permitan obtener conclusiones y posibles lineas de trabajo. Además, el TFG plantea el diseño de una gramática formal, no existente hasta el momento, que permita estudios futuros utilizando técnicas distintas al aprendizaje de redes neuronales.
[-]
[CA] El problema de la traducció automàtica és particularment interessant en aquells
idiomes per als quals, per qüestions de població, rellevància política, aïllament o
altres motius, la quantitat de recursos disponibles ...[+]
[CA] El problema de la traducció automàtica és particularment interessant en aquells
idiomes per als quals, per qüestions de població, rellevància política, aïllament o
altres motius, la quantitat de recursos disponibles són limitats, on per recursos
habitualment s’entenen traduccions existents de, o des de, l’idioma a qualsevol
altre amb una situació més avantatjosa. Actualment, aquest problema és interessant perquè països en aquestes circumstàncies pertanyen a institucions internacionals on es planteja la traducció automàtica com a solució a les reunions multilaterals. És un problema especialment important al paradigma actual, ja que
l’estat de l’art el constitueixen models estadístics que necessiten grans volums de
dades per poder aprendre els patrons subjacents del llenguatge. En aquest TFG
es planteja considerar un idioma artificial, proposat formalment el 2014, el Toki
Pona com a banc de prova que abordi el problema anteriorment exposat. Aquest
idioma minimalista cerca expressar el màxim de significats amb una complexitat mínima. Si bé Toki Pona no es planteja, al contrari de l’esperanto, com una
llengua de comunicació internacional, sí que comparteix amb ell característiques
com la senzillesa d’aprenentatge. Des de la seva presentació informal a la web el
2001, la comunitat Toki Pona ha crescut en nombre i activitat, i hi ha recursos amb
traduccions generats per aquesta que s’utilitzaran com a base per a l’aprenentatge d’una xarxa neuronal per a la traducció automàtica. Aquests recursos estan
avalats per la comunitat, per la qual cosa es poden considerar dades fiables en un
procés d’aprenentatge automàtic. Una experimentació obtindrà els resultats que
permetin obtenir conclusions i possibles línies de treball. A més, el TFG planteja
el disseny d’una gramàtica formal, no existent fins ara, que permeti estudis futurs
utilitzant tècniques diferents de l’aprenentatge de xarxes neuronals.
[-]
|