Resumen:
|
[ES] Hoy en día los avances en el área del Procesamiento del Lenguaje Natural y el Aprendizaje Automático permiten el análisis, la comprensión y la generación de texto automáticamente cada vez más precisa y fluida. El ...[+]
[ES] Hoy en día los avances en el área del Procesamiento del Lenguaje Natural y el Aprendizaje Automático permiten el análisis, la comprensión y la generación de texto automáticamente cada vez más precisa y fluida. El objetivo de este trabajo final de grado es la
creación automática de ejemplos de texto en ruso, a partir de datos de texto ya existentes mediante técnicas de aprendizaje automático. Se han empleado redes neuronales y
recursos lingüísticos para la generación automática de texto en ruso.
Para el desarrollo del trabajo se han utilizado datos de dominio público. El sistema
genera nuevos textos utilizando información de embeddings entrenadas con una ingente
cantidad de datos en modelos de lenguaje neuronales. La generación de dichos textos
incrementa el corpus utilizado para el entrenamiento de modelos para tareas del Procesamiento del Lenguaje Natural como la traducción automática. También podría aplicarse
a otras tareas como la generación de resúmenes automáticos o parafraseadores de textos.
Por último, se ha realizado un análisis de los resultados obtenidos evaluando la calidad de los textos generados y se han añadido al entrenamiento de modelos de traducción
automática neuronal. Estos modelos se han comparado realizando un análisis cuantitativo, comparando los distintos métodos mediante varias métricas automáticas típicas utilizadas en traducción automática y se han medido los tiempos empleados y la cantidad
de texto generado para un buen uso en la industria del lenguaje, y un análisis cualitativo, donde se han expuesto ejemplos de traducción generados por los modelos de traducción
entrenados y se han comparado entre sí.
[-]
[EN] Current progress in the areas of Natural Language Processing and Machine Learning
allows for the analysis, understanding and automatic generation of increasingly accurate and fluid text. The objective of this final ...[+]
[EN] Current progress in the areas of Natural Language Processing and Machine Learning
allows for the analysis, understanding and automatic generation of increasingly accurate and fluid text. The objective of this final degree project is automatically creating text
examples in Russian from existing text data using machine learning techniques. Neural networks and linguistic resources have been used for the automatic generation of
text in Russian. To develop this project, data from the public domain have been used.
The system generates new texts using information from embeddings trained with a huge
amount of data in neural language models. The generation of these texts increases the
corpus used to train models for several Natural Language Processing tasks, for instance,
machine translation. It could also be applied to other tasks such as generating automatic
summaries or to text paraphrasers. Finally, an analysis of the results obtained evaluating
the quality of generated texts has been carried out and those texts have been added to
the training process of neural machine translation models. On the one hand, these models have been compared by performing a quantitative analysis, comparing the different
methods by means of several typical automatic metrics used in machine translation and
measuring the times spent and the amount of text generated for good use in the language
industry. On the other hand, they have been compared through a qualitative analysis,
where examples of translation generated by the trained translation models have been
exposed and compared with each other.
[-]
[CA] Hui dia, els avanços en l’àrea del Processament del Llenguatge Natural i l’Aprenentatge Automàtic permeten l’anàlisi, la comprensió i la generació automàtica de text cada
vegada més precís i fluid. L’objectiu d’aquest ...[+]
[CA] Hui dia, els avanços en l’àrea del Processament del Llenguatge Natural i l’Aprenentatge Automàtic permeten l’anàlisi, la comprensió i la generació automàtica de text cada
vegada més precís i fluid. L’objectiu d’aquest treball final de grau és la creació automàtica d’exemples de text en rus a partir de dades de text ja existents mitjançant tècniques
d’aprenentatge automàtic. S’han emprat xarxes neuronals i recursos lingüístics per a la
generació automàtica de text en rus. Per al desenvolupament del treball s’han utilitzat
dades de domini públic. El sistema genera nous textos utilitzant informació d’embeddings
entrenades amb una ingent quantitat de dades en models de llenguatge neuronals. La
generació d’aquests textos incrementa el corpus utilitzat a l’entrenament de models per a
tasques de Processament del Llenguatge Natural com ara la traducció automàtica. També
podria aplicar-se a d’altres tasques com, per exemple, la generació de resums automàtics
o als parafrasejadors de textos. Finalment, s’ha realitzat una anàlisi dels resultats obtinguts mitjançant l’avaluació de la qualitat dels textos generats, els quals s’han afegit a
l’entrenament de models de traducció automàtica neuronal. Aquests models s’han comparat realitzant, d’una banda, una anàlisi quantitativa amb la comparació dels diferents
mètodes mitjançant diverses mètriques automàtiques típiques utilitzades en traducció
automàtica, així com el mesurament dels temps emprats i la quantitat de text generat
per un bon ús en la indústria del llenguatge i, d’altra banda, una anàlisi qualitativa, on
s’han exposat exemples de traducció generats pels models de traducció entrenats i s’han
comparat entre ells.
[-]
|