- -

Generación de textos en ruso mediante técnicas de Aprendizaje Automático para la industria del lenguaje

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Compartir/Enviar a

Citas

Estadísticas

  • Estadisticas de Uso

Generación de textos en ruso mediante técnicas de Aprendizaje Automático para la industria del lenguaje

Mostrar el registro sencillo del ítem

Ficheros en el ítem

dc.contributor.advisor Casacuberta Nolla, Francisco es_ES
dc.contributor.advisor Garcia Martinez, Maria Mercedes es_ES
dc.contributor.author Gregoryev, Mykyta es_ES
dc.date.accessioned 2022-04-27T12:27:19Z
dc.date.available 2022-04-27T12:27:19Z
dc.date.created 2022-03-31
dc.date.issued 2022-04-27 es_ES
dc.identifier.uri http://hdl.handle.net/10251/182213
dc.description.abstract [ES] Hoy en día los avances en el área del Procesamiento del Lenguaje Natural y el Aprendizaje Automático permiten el análisis, la comprensión y la generación de texto automáticamente cada vez más precisa y fluida. El objetivo de este trabajo final de grado es la creación automática de ejemplos de texto en ruso, a partir de datos de texto ya existentes mediante técnicas de aprendizaje automático. Se han empleado redes neuronales y recursos lingüísticos para la generación automática de texto en ruso. Para el desarrollo del trabajo se han utilizado datos de dominio público. El sistema genera nuevos textos utilizando información de embeddings entrenadas con una ingente cantidad de datos en modelos de lenguaje neuronales. La generación de dichos textos incrementa el corpus utilizado para el entrenamiento de modelos para tareas del Procesamiento del Lenguaje Natural como la traducción automática. También podría aplicarse a otras tareas como la generación de resúmenes automáticos o parafraseadores de textos. Por último, se ha realizado un análisis de los resultados obtenidos evaluando la calidad de los textos generados y se han añadido al entrenamiento de modelos de traducción automática neuronal. Estos modelos se han comparado realizando un análisis cuantitativo, comparando los distintos métodos mediante varias métricas automáticas típicas utilizadas en traducción automática y se han medido los tiempos empleados y la cantidad de texto generado para un buen uso en la industria del lenguaje, y un análisis cualitativo, donde se han expuesto ejemplos de traducción generados por los modelos de traducción entrenados y se han comparado entre sí. es_ES
dc.description.abstract [EN] Current progress in the areas of Natural Language Processing and Machine Learning allows for the analysis, understanding and automatic generation of increasingly accurate and fluid text. The objective of this final degree project is automatically creating text examples in Russian from existing text data using machine learning techniques. Neural networks and linguistic resources have been used for the automatic generation of text in Russian. To develop this project, data from the public domain have been used. The system generates new texts using information from embeddings trained with a huge amount of data in neural language models. The generation of these texts increases the corpus used to train models for several Natural Language Processing tasks, for instance, machine translation. It could also be applied to other tasks such as generating automatic summaries or to text paraphrasers. Finally, an analysis of the results obtained evaluating the quality of generated texts has been carried out and those texts have been added to the training process of neural machine translation models. On the one hand, these models have been compared by performing a quantitative analysis, comparing the different methods by means of several typical automatic metrics used in machine translation and measuring the times spent and the amount of text generated for good use in the language industry. On the other hand, they have been compared through a qualitative analysis, where examples of translation generated by the trained translation models have been exposed and compared with each other. es_ES
dc.description.abstract [CA] Hui dia, els avanços en l’àrea del Processament del Llenguatge Natural i l’Aprenentatge Automàtic permeten l’anàlisi, la comprensió i la generació automàtica de text cada vegada més precís i fluid. L’objectiu d’aquest treball final de grau és la creació automàtica d’exemples de text en rus a partir de dades de text ja existents mitjançant tècniques d’aprenentatge automàtic. S’han emprat xarxes neuronals i recursos lingüístics per a la generació automàtica de text en rus. Per al desenvolupament del treball s’han utilitzat dades de domini públic. El sistema genera nous textos utilitzant informació d’embeddings entrenades amb una ingent quantitat de dades en models de llenguatge neuronals. La generació d’aquests textos incrementa el corpus utilitzat a l’entrenament de models per a tasques de Processament del Llenguatge Natural com ara la traducció automàtica. També podria aplicar-se a d’altres tasques com, per exemple, la generació de resums automàtics o als parafrasejadors de textos. Finalment, s’ha realitzat una anàlisi dels resultats obtinguts mitjançant l’avaluació de la qualitat dels textos generats, els quals s’han afegit a l’entrenament de models de traducció automàtica neuronal. Aquests models s’han comparat realitzant, d’una banda, una anàlisi quantitativa amb la comparació dels diferents mètodes mitjançant diverses mètriques automàtiques típiques utilitzades en traducció automàtica, així com el mesurament dels temps emprats i la quantitat de text generat per un bon ús en la indústria del llenguatge i, d’altra banda, una anàlisi qualitativa, on s’han exposat exemples de traducció generats pels models de traducció entrenats i s’han comparat entre ells. es_ES
dc.format.extent 62 es_ES
dc.language Español es_ES
dc.publisher Universitat Politècnica de València es_ES
dc.rights Reserva de todos los derechos es_ES
dc.subject Procesamiento del Lenguaje Natural es_ES
dc.subject Aumento de datos es_ES
dc.subject Redes Neuronales es_ES
dc.subject Grandes conjuntos de datos es_ES
dc.subject Aprendizaje Automático es_ES
dc.subject Inteligencia Artificial es_ES
dc.subject Aprendizaje Profundo es_ES
dc.subject Natural Lnaguage Processing es_ES
dc.subject Neural Networks es_ES
dc.subject Big Data es_ES
dc.subject Machine Learning es_ES
dc.subject Artificial Intelligence es_ES
dc.subject Deep Learning es_ES
dc.subject.classification LENGUAJES Y SISTEMAS INFORMATICOS es_ES
dc.subject.other Grado en Ingeniería Informática-Grau en Enginyeria Informàtica es_ES
dc.title Generación de textos en ruso mediante técnicas de Aprendizaje Automático para la industria del lenguaje es_ES
dc.type Proyecto/Trabajo fin de carrera/grado es_ES
dc.rights.accessRights Abierto es_ES
dc.contributor.affiliation Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació es_ES
dc.contributor.affiliation Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica es_ES
dc.description.bibliographicCitation Gregoryev, M. (2022). Generación de textos en ruso mediante técnicas de Aprendizaje Automático para la industria del lenguaje. Universitat Politècnica de València. http://hdl.handle.net/10251/182213 es_ES
dc.description.accrualMethod TFGM es_ES
dc.relation.pasarela TFGM\146681 es_ES


Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem