- -

Enhancing Textual Datasets with Large Language Model-based Data Augmentation for Neural Machine Translation

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Compartir/Enviar a

Citas

Estadísticas

  • Estadisticas de Uso

Enhancing Textual Datasets with Large Language Model-based Data Augmentation for Neural Machine Translation

Mostrar el registro sencillo del ítem

Ficheros en el ítem

dc.contributor.advisor Casacuberta Nolla, Francisco es_ES
dc.contributor.advisor Chatzitheodorou, Konstantinos es_ES
dc.contributor.author Puchol Salort, Blai es_ES
dc.date.accessioned 2023-10-16T07:56:51Z
dc.date.available 2023-10-16T07:56:51Z
dc.date.created 2023-09-20
dc.date.issued 2023-10-16 es_ES
dc.identifier.uri http://hdl.handle.net/10251/198092
dc.description.abstract [EN] This work proposes a parallel textual data augmentation framework for low-resource languages or low-resource domains using different technologies like Masked Language Models, Large Language Models, and Natural Language Processing tools and resources. The framework detects parts of the target text that can be replaced with new ones with the same grammatical category at the word level. Then, the replaced word is found in the source text using word alignment to replace it with a suitable synonym. The process includes iterative steps of identifying and replacing words until no further changes can occur. Our approach addresses the need for more extensive high-quality datasets in natural language processing tasks for low-resource situations. The proposed process is designed to support multiple languages and various text types. Large Language Models can be used to maintain the augmented data's quality and facilitate diverse textual datasets in both monolingual and multilingual cases. The quality of the augmented data is evaluated by humans based on various criteria such as fluency, coherence, and relevance, and automatic evaluations are performed to check the improvement in the language model's performance. This automated evaluation employs state-of-the-art metrics such as BLEU, TER, and chrF. The proposed framework aims to improve the quality and quantity of textual data that can be used for natural language processing tasks, such as machine translation. es_ES
dc.description.abstract [CA] En aquest TFG, proposem un sistema d’augment de dades textuals paral·leles per a llenguatges o dominis de baixos recursos utilitzant diferents tecnologies com ara models de llenguatge emmascarat, grans models lingüístics i eines i recursos de processament de llenguatge natural. El sistema detecta parts del text objetiu que es poden reemplaçar per altres de noves amb la mateixa categoria gramatical a nivell de paraula. Després, la paraula reemplaçada es troba al text font utilitzant alineació de paraules entre frases per reemplaçar-la amb un sinònim adequat. El procés inclou passos iteratius per identificar i reemplaçar paraules fins que no es puguin produir més canvis. El nostre enfocament aborda la necessitat de conjunts de dades més extenses i d’alta qualitat en tasques de processament del llenguatge natural en situacions de baixos recursos. El procés proposat està dissenyat per admetre múltiples idiomes i diversos tipus de text. Es poden utilitzar grans models lingüístics per mantenir la qualitat de les dades augmentades respecte a les originals i facilitar diversos conjunts de dades textuals tant en casos monolingües com multilingües. La qualitat de les dades augmentades és avaluada per humans en funció de diversos criteris, com ara fluïdesa, coherència i rellevància, i es realitzen avaluacions automàtiques per comprovar la millora en el rendiment del model de llenguatge. Aquesta avaluació automatitzada utilitza mètriques de darrera generació com BLEU, TER i chrF. El sistema proposat té com a objectiu millorar la qualitat i quantitat de dades textuals que es poden utilitzar per a tasques de processament del llenguatge natural, com ara la traducció automàtica. es_ES
dc.description.abstract [ES] En este TFG, proponemos un sistema de aumento de datos textuales paralelos para lenguajes o dominios de bajos recursos utilizando diferentes tecnologías como modelos de lenguaje enmascarado, grandes modelos de lenguaje y herramientas y recursos de procesamiento de lenguaje natural. El sistema detecta partes del texto objetivo que pueden reemplazarse por otras nuevas con la misma categoría gramatical a nivel de palabra. Luego, la palabra reemplazada se encuentra en el texto fuente utilizando alineación de palabras entre frases para reemplazarla con un sinónimo adecuado. El proceso incluye pasos iterativos para identificar y reemplazar palabras hasta que no puedan ocurrir más cambios. Nuestro enfoque aborda la necesidad de conjuntos de datos más extensos y de alta calidad en tareas de procesamiento del lenguaje natural en situaciones de bajos recursos. El proceso propuesto está diseñado para admitir múltiples idiomas y varios tipos de texto. Se pueden utilizar modelos de lenguaje grandes para mantener la calidad de los datos aumentados respecto a los originales y facilitar diversos conjuntos de datos textuales tanto en casos monolingües como multilingües. La calidad de los datos aumentados es evaluada por humanos en función de varios criterios, como fluidez, coherencia y relevancia, y se realizan evaluaciones automáticas para comprobar la mejora en el rendimiento del modelo de lenguaje. Esta evaluación automatizada emplea métricas de última generación como BLEU, TER y chrF. El sistema propuesto tiene como objetivo mejorar la calidad y cantidad de datos textuales que se pueden utilizar para tareas de procesamiento del lenguaje natural, como la traducción automática. es_ES
dc.format.extent 73 es_ES
dc.language Inglés es_ES
dc.publisher Universitat Politècnica de València es_ES
dc.rights Reserva de todos los derechos es_ES
dc.subject Data augmentation es_ES
dc.subject Large language models es_ES
dc.subject Natural language processing es_ES
dc.subject Machine translation es_ES
dc.subject Text generation es_ES
dc.subject Aumento de datos es_ES
dc.subject Grandes modelos de lenguaje es_ES
dc.subject Procesamiento de lenguaje natural es_ES
dc.subject Traducción automática es_ES
dc.subject Generación de texto es_ES
dc.subject.classification LENGUAJES Y SISTEMAS INFORMATICOS es_ES
dc.subject.other Grado en Ingeniería Informática-Grau en Enginyeria Informàtica es_ES
dc.title Enhancing Textual Datasets with Large Language Model-based Data Augmentation for Neural Machine Translation es_ES
dc.title.alternative Millora de conjunts de dades textuals amb dades artificials a partir de grans models de llenguatge per a la traducció automàtica neuronal es_ES
dc.title.alternative Mejora de conjuntos de datos textuales con datos artificiales a partir de grandes modelos de lenguaje para la traducción automática neuronal es_ES
dc.type Proyecto/Trabajo fin de carrera/grado es_ES
dc.rights.accessRights Abierto es_ES
dc.contributor.affiliation Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació es_ES
dc.contributor.affiliation Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica es_ES
dc.description.bibliographicCitation Puchol Salort, B. (2023). Enhancing Textual Datasets with Large Language Model-based Data Augmentation for Neural Machine Translation. Universitat Politècnica de València. http://hdl.handle.net/10251/198092 es_ES
dc.description.accrualMethod TFGM es_ES
dc.relation.pasarela TFGM\156316 es_ES


Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem