Enhancing Textual Datasets with Large Language Model-based Data Augmentation for Neural Machine Translation

Puchol Salort, Blai

Identificarse

Buscar en RiuNet

Listar

Todo RiuNet
Esta colección

Mi cuenta

Acceder

Estadísticas

Ver Estadísticas de uso

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Enhancing Textual Datasets with Large Language Model-based Data Augmentation for Neural Machine Translation

Mostrar el registro sencillo del ítem

Ficheros en el ítem

Nombre: Puchol - Enhancing ...

Tamaño: 1.719Mb

Formato: PDF

Abrir

dc.contributor.advisor	Casacuberta Nolla, Francisco	es_ES
dc.contributor.advisor	Chatzitheodorou, Konstantinos	es_ES
dc.contributor.author	Puchol Salort, Blai	es_ES
dc.date.accessioned	2023-10-16T07:56:51Z
dc.date.available	2023-10-16T07:56:51Z
dc.date.created	2023-09-20
dc.date.issued	2023-10-16	es_ES
dc.identifier.uri	http://hdl.handle.net/10251/198092
dc.description.abstract	[EN] This work proposes a parallel textual data augmentation framework for low-resource languages or low-resource domains using different technologies like Masked Language Models, Large Language Models, and Natural Language Processing tools and resources. The framework detects parts of the target text that can be replaced with new ones with the same grammatical category at the word level. Then, the replaced word is found in the source text using word alignment to replace it with a suitable synonym. The process includes iterative steps of identifying and replacing words until no further changes can occur. Our approach addresses the need for more extensive high-quality datasets in natural language processing tasks for low-resource situations. The proposed process is designed to support multiple languages and various text types. Large Language Models can be used to maintain the augmented data's quality and facilitate diverse textual datasets in both monolingual and multilingual cases. The quality of the augmented data is evaluated by humans based on various criteria such as fluency, coherence, and relevance, and automatic evaluations are performed to check the improvement in the language model's performance. This automated evaluation employs state-of-the-art metrics such as BLEU, TER, and chrF. The proposed framework aims to improve the quality and quantity of textual data that can be used for natural language processing tasks, such as machine translation.	es_ES
dc.description.abstract	[CA] En aquest TFG, proposem un sistema d’augment de dades textuals paral·leles per a llenguatges o dominis de baixos recursos utilitzant diferents tecnologies com ara models de llenguatge emmascarat, grans models lingüístics i eines i recursos de processament de llenguatge natural. El sistema detecta parts del text objetiu que es poden reemplaçar per altres de noves amb la mateixa categoria gramatical a nivell de paraula. Després, la paraula reemplaçada es troba al text font utilitzant alineació de paraules entre frases per reemplaçar-la amb un sinònim adequat. El procés inclou passos iteratius per identificar i reemplaçar paraules fins que no es puguin produir més canvis. El nostre enfocament aborda la necessitat de conjunts de dades més extenses i d’alta qualitat en tasques de processament del llenguatge natural en situacions de baixos recursos. El procés proposat està dissenyat per admetre múltiples idiomes i diversos tipus de text. Es poden utilitzar grans models lingüístics per mantenir la qualitat de les dades augmentades respecte a les originals i facilitar diversos conjunts de dades textuals tant en casos monolingües com multilingües. La qualitat de les dades augmentades és avaluada per humans en funció de diversos criteris, com ara fluïdesa, coherència i rellevància, i es realitzen avaluacions automàtiques per comprovar la millora en el rendiment del model de llenguatge. Aquesta avaluació automatitzada utilitza mètriques de darrera generació com BLEU, TER i chrF. El sistema proposat té com a objectiu millorar la qualitat i quantitat de dades textuals que es poden utilitzar per a tasques de processament del llenguatge natural, com ara la traducció automàtica.	es_ES
dc.description.abstract	[ES] En este TFG, proponemos un sistema de aumento de datos textuales paralelos para lenguajes o dominios de bajos recursos utilizando diferentes tecnologías como modelos de lenguaje enmascarado, grandes modelos de lenguaje y herramientas y recursos de procesamiento de lenguaje natural. El sistema detecta partes del texto objetivo que pueden reemplazarse por otras nuevas con la misma categoría gramatical a nivel de palabra. Luego, la palabra reemplazada se encuentra en el texto fuente utilizando alineación de palabras entre frases para reemplazarla con un sinónimo adecuado. El proceso incluye pasos iterativos para identificar y reemplazar palabras hasta que no puedan ocurrir más cambios. Nuestro enfoque aborda la necesidad de conjuntos de datos más extensos y de alta calidad en tareas de procesamiento del lenguaje natural en situaciones de bajos recursos. El proceso propuesto está diseñado para admitir múltiples idiomas y varios tipos de texto. Se pueden utilizar modelos de lenguaje grandes para mantener la calidad de los datos aumentados respecto a los originales y facilitar diversos conjuntos de datos textuales tanto en casos monolingües como multilingües. La calidad de los datos aumentados es evaluada por humanos en función de varios criterios, como fluidez, coherencia y relevancia, y se realizan evaluaciones automáticas para comprobar la mejora en el rendimiento del modelo de lenguaje. Esta evaluación automatizada emplea métricas de última generación como BLEU, TER y chrF. El sistema propuesto tiene como objetivo mejorar la calidad y cantidad de datos textuales que se pueden utilizar para tareas de procesamiento del lenguaje natural, como la traducción automática.	es_ES
dc.format.extent	73	es_ES
dc.language	Inglés	es_ES
dc.publisher	Universitat Politècnica de València	es_ES
dc.rights	Reserva de todos los derechos	es_ES
dc.subject	Data augmentation	es_ES
dc.subject	Large language models	es_ES
dc.subject	Natural language processing	es_ES
dc.subject	Machine translation	es_ES
dc.subject	Text generation	es_ES
dc.subject	Aumento de datos	es_ES
dc.subject	Grandes modelos de lenguaje	es_ES
dc.subject	Procesamiento de lenguaje natural	es_ES
dc.subject	Traducción automática	es_ES
dc.subject	Generación de texto	es_ES
dc.subject.classification	LENGUAJES Y SISTEMAS INFORMATICOS	es_ES
dc.subject.other	Grado en Ingeniería Informática-Grau en Enginyeria Informàtica	es_ES
dc.title	Enhancing Textual Datasets with Large Language Model-based Data Augmentation for Neural Machine Translation	es_ES
dc.title.alternative	Millora de conjunts de dades textuals amb dades artificials a partir de grans models de llenguatge per a la traducció automàtica neuronal	es_ES
dc.title.alternative	Mejora de conjuntos de datos textuales con datos artificiales a partir de grandes modelos de lenguaje para la traducción automática neuronal	es_ES
dc.type	Proyecto/Trabajo fin de carrera/grado	es_ES
dc.rights.accessRights	Abierto	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica	es_ES
dc.description.bibliographicCitation	Puchol Salort, B. (2023). Enhancing Textual Datasets with Large Language Model-based Data Augmentation for Neural Machine Translation. Universitat Politècnica de València. http://hdl.handle.net/10251/198092	es_ES
dc.description.accrualMethod	TFGM	es_ES
dc.relation.pasarela	TFGM\156316	es_ES

Este ítem aparece en la(s) siguiente(s) colección(ones)

ETSINF - Trabajos académicos [5160]
Escola Tècnica Superior d'Enginyeria Informàtica

Mostrar el registro sencillo del ítem

Enhancing Textual Datasets with Large Language Model-based Data Augmentation for Neural Machine Translation

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Buscar en RiuNet

Listar

Todo RiuNet

Esta colección

Mi cuenta

Estadísticas

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Enhancing Textual Datasets with Large Language Model-based Data Augmentation for Neural Machine Translation

Ficheros en el ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)