Mostrar el registro sencillo del ítem
dc.contributor.advisor | Casacuberta Nolla, Francisco | es_ES |
dc.contributor.advisor | Chatzitheodorou, Konstantinos | es_ES |
dc.contributor.author | Puchol Salort, Blai | es_ES |
dc.date.accessioned | 2023-10-16T07:56:51Z | |
dc.date.available | 2023-10-16T07:56:51Z | |
dc.date.created | 2023-09-20 | |
dc.date.issued | 2023-10-16 | es_ES |
dc.identifier.uri | http://hdl.handle.net/10251/198092 | |
dc.description.abstract | [EN] This work proposes a parallel textual data augmentation framework for low-resource languages or low-resource domains using different technologies like Masked Language Models, Large Language Models, and Natural Language Processing tools and resources. The framework detects parts of the target text that can be replaced with new ones with the same grammatical category at the word level. Then, the replaced word is found in the source text using word alignment to replace it with a suitable synonym. The process includes iterative steps of identifying and replacing words until no further changes can occur. Our approach addresses the need for more extensive high-quality datasets in natural language processing tasks for low-resource situations. The proposed process is designed to support multiple languages and various text types. Large Language Models can be used to maintain the augmented data's quality and facilitate diverse textual datasets in both monolingual and multilingual cases. The quality of the augmented data is evaluated by humans based on various criteria such as fluency, coherence, and relevance, and automatic evaluations are performed to check the improvement in the language model's performance. This automated evaluation employs state-of-the-art metrics such as BLEU, TER, and chrF. The proposed framework aims to improve the quality and quantity of textual data that can be used for natural language processing tasks, such as machine translation. | es_ES |
dc.description.abstract | [CA] En aquest TFG, proposem un sistema d’augment de dades textuals paral·leles per a llenguatges o dominis de baixos recursos utilitzant diferents tecnologies com ara models de llenguatge emmascarat, grans models lingüístics i eines i recursos de processament de llenguatge natural. El sistema detecta parts del text objetiu que es poden reemplaçar per altres de noves amb la mateixa categoria gramatical a nivell de paraula. Després, la paraula reemplaçada es troba al text font utilitzant alineació de paraules entre frases per reemplaçar-la amb un sinònim adequat. El procés inclou passos iteratius per identificar i reemplaçar paraules fins que no es puguin produir més canvis. El nostre enfocament aborda la necessitat de conjunts de dades més extenses i d’alta qualitat en tasques de processament del llenguatge natural en situacions de baixos recursos. El procés proposat està dissenyat per admetre múltiples idiomes i diversos tipus de text. Es poden utilitzar grans models lingüístics per mantenir la qualitat de les dades augmentades respecte a les originals i facilitar diversos conjunts de dades textuals tant en casos monolingües com multilingües. La qualitat de les dades augmentades és avaluada per humans en funció de diversos criteris, com ara fluïdesa, coherència i rellevància, i es realitzen avaluacions automàtiques per comprovar la millora en el rendiment del model de llenguatge. Aquesta avaluació automatitzada utilitza mètriques de darrera generació com BLEU, TER i chrF. El sistema proposat té com a objectiu millorar la qualitat i quantitat de dades textuals que es poden utilitzar per a tasques de processament del llenguatge natural, com ara la traducció automàtica. | es_ES |
dc.description.abstract | [ES] En este TFG, proponemos un sistema de aumento de datos textuales paralelos para lenguajes o dominios de bajos recursos utilizando diferentes tecnologías como modelos de lenguaje enmascarado, grandes modelos de lenguaje y herramientas y recursos de procesamiento de lenguaje natural. El sistema detecta partes del texto objetivo que pueden reemplazarse por otras nuevas con la misma categoría gramatical a nivel de palabra. Luego, la palabra reemplazada se encuentra en el texto fuente utilizando alineación de palabras entre frases para reemplazarla con un sinónimo adecuado. El proceso incluye pasos iterativos para identificar y reemplazar palabras hasta que no puedan ocurrir más cambios. Nuestro enfoque aborda la necesidad de conjuntos de datos más extensos y de alta calidad en tareas de procesamiento del lenguaje natural en situaciones de bajos recursos. El proceso propuesto está diseñado para admitir múltiples idiomas y varios tipos de texto. Se pueden utilizar modelos de lenguaje grandes para mantener la calidad de los datos aumentados respecto a los originales y facilitar diversos conjuntos de datos textuales tanto en casos monolingües como multilingües. La calidad de los datos aumentados es evaluada por humanos en función de varios criterios, como fluidez, coherencia y relevancia, y se realizan evaluaciones automáticas para comprobar la mejora en el rendimiento del modelo de lenguaje. Esta evaluación automatizada emplea métricas de última generación como BLEU, TER y chrF. El sistema propuesto tiene como objetivo mejorar la calidad y cantidad de datos textuales que se pueden utilizar para tareas de procesamiento del lenguaje natural, como la traducción automática. | es_ES |
dc.format.extent | 73 | es_ES |
dc.language | Inglés | es_ES |
dc.publisher | Universitat Politècnica de València | es_ES |
dc.rights | Reserva de todos los derechos | es_ES |
dc.subject | Data augmentation | es_ES |
dc.subject | Large language models | es_ES |
dc.subject | Natural language processing | es_ES |
dc.subject | Machine translation | es_ES |
dc.subject | Text generation | es_ES |
dc.subject | Aumento de datos | es_ES |
dc.subject | Grandes modelos de lenguaje | es_ES |
dc.subject | Procesamiento de lenguaje natural | es_ES |
dc.subject | Traducción automática | es_ES |
dc.subject | Generación de texto | es_ES |
dc.subject.classification | LENGUAJES Y SISTEMAS INFORMATICOS | es_ES |
dc.subject.other | Grado en Ingeniería Informática-Grau en Enginyeria Informàtica | es_ES |
dc.title | Enhancing Textual Datasets with Large Language Model-based Data Augmentation for Neural Machine Translation | es_ES |
dc.title.alternative | Millora de conjunts de dades textuals amb dades artificials a partir de grans models de llenguatge per a la traducció automàtica neuronal | es_ES |
dc.title.alternative | Mejora de conjuntos de datos textuales con datos artificiales a partir de grandes modelos de lenguaje para la traducción automática neuronal | es_ES |
dc.type | Proyecto/Trabajo fin de carrera/grado | es_ES |
dc.rights.accessRights | Abierto | es_ES |
dc.contributor.affiliation | Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació | es_ES |
dc.contributor.affiliation | Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica | es_ES |
dc.description.bibliographicCitation | Puchol Salort, B. (2023). Enhancing Textual Datasets with Large Language Model-based Data Augmentation for Neural Machine Translation. Universitat Politècnica de València. http://hdl.handle.net/10251/198092 | es_ES |
dc.description.accrualMethod | TFGM | es_ES |
dc.relation.pasarela | TFGM\156316 | es_ES |