Resumen:
|
[ES] Los sistemas de pregunta/respuesta contruidos mediante técnicas de aprendizaje automático requieren de conjuntos de datos. A día de hoy, se cuenta con dichos conjuntos en idiomas muy hablados como el inglés o el chino, ...[+]
[ES] Los sistemas de pregunta/respuesta contruidos mediante técnicas de aprendizaje automático requieren de conjuntos de datos. A día de hoy, se cuenta con dichos conjuntos en idiomas muy hablados como el inglés o el chino, pero no para idiomas más locales como pude ser el euskera. El objetivo de este trabajo es, partiendo de conjuntos de datos en inglés, crear sus respectivas versiones en castellano, euskera y catalán. Una vez creados estos conjuntos empleando técnicas de traducción automática, se procede a entrenar el modelo predictivo de pregunta/respuesta para cada idioma. Hay que tener en cuenta no solo aquellos modelos entrenados con un solo idioma, sino aquellos que emplean métodos multilingües, ya que actualmente estos últimos tienen bastante peso en el estado del arte del procesamiento del lenguaje natural y, específicamente, en las tareas de pregunta/respuesta.
[-]
[EN] Building Question / answer systems by using machine learning techniques require data sets. Nowadays, these sets are available in highly spoken languages such as English or Chinese, but not for regional languages such ...[+]
[EN] Building Question / answer systems by using machine learning techniques require data sets. Nowadays, these sets are available in highly spoken languages such as English or Chinese, but not for regional languages such as Basque. The aim of this work is to create datasets in Spanish, Basque and Catalan from the English version. After creating these sets by Machine Translation techniques, we will proceed to train the predictive QA model for each language. We must take into account that we can train models using just one or multiple languages. We are taking into consideration multilingual models due to their importance in the NLP state of the art and, specifically, in QA tasks.
[-]
[CA] Les tasques d’aprenentatge automàtic basades en sistemes de pregunta/resposta requereixen de conjunts de dades per entrenar models predictius. Actualment, es compta
amb aquests conjunts en idiomes molt parlats com ...[+]
[CA] Les tasques d’aprenentatge automàtic basades en sistemes de pregunta/resposta requereixen de conjunts de dades per entrenar models predictius. Actualment, es compta
amb aquests conjunts en idiomes molt parlats com l’anglès o el xinès, però no per a idiomes més locals com pot ser el basc.
L’objectiu d’aquest treball és, partint de conjunts de dades en anglès, crear les seves respectives versions en castellà, basc i català. Una vegada que estiguin creats aquests conjunts emprant tècniques de traducció automàtica, es procedeix a entrenar el model predictiu de pregunta/resposta per a cada idioma.
Cal tenir en compte no només aquells models entrenats amb un sol idioma, sinó aquells
que fan servir mètodes multilingües (Per exemple, entrenament en un idioma i validació
en un altre), ja que actualment aquests últims tenen prou pes en l’estat de l’art del processament del llenguatge natural i, específicament, en les tasques de pregunta/resposta.
[-]
|