Resumen:
|
[EN] This work proposes a parallel textual data augmentation framework for low-resource languages or low-resource domains using different technologies like Masked Language Models, Large Language Models, and Natural Language ...[+]
[EN] This work proposes a parallel textual data augmentation framework for low-resource languages or low-resource domains using different technologies like Masked Language Models, Large Language Models, and Natural Language Processing tools and resources. The framework detects parts of the target text that can be replaced with new ones with the same grammatical category at the word level. Then, the replaced word is found in the source text using word alignment to replace it with a suitable synonym. The process includes iterative steps of identifying and replacing words until no further changes can occur. Our approach addresses the need for more extensive high-quality datasets in natural language processing tasks for low-resource situations. The proposed process is designed to support multiple languages and various text types. Large Language Models can be used to maintain the augmented data's quality and facilitate diverse textual datasets in both monolingual and multilingual cases. The quality of the augmented data is evaluated by humans based on various criteria such as fluency, coherence, and relevance, and automatic evaluations are performed to check the improvement in the language model's performance. This automated evaluation employs state-of-the-art metrics such as BLEU, TER, and chrF. The proposed framework aims to improve the quality and quantity of textual data that can be used for natural language processing tasks, such as machine translation.
[-]
[CA] En aquest TFG, proposem un sistema d’augment de dades textuals paral·leles per a
llenguatges o dominis de baixos recursos utilitzant diferents tecnologies com ara models
de llenguatge emmascarat, grans models ...[+]
[CA] En aquest TFG, proposem un sistema d’augment de dades textuals paral·leles per a
llenguatges o dominis de baixos recursos utilitzant diferents tecnologies com ara models
de llenguatge emmascarat, grans models lingüístics i eines i recursos de processament
de llenguatge natural. El sistema detecta parts del text objetiu que es poden reemplaçar
per altres de noves amb la mateixa categoria gramatical a nivell de paraula. Després, la
paraula reemplaçada es troba al text font utilitzant alineació de paraules entre frases per
reemplaçar-la amb un sinònim adequat. El procés inclou passos iteratius per identificar
i reemplaçar paraules fins que no es puguin produir més canvis. El nostre enfocament
aborda la necessitat de conjunts de dades més extenses i d’alta qualitat en tasques de
processament del llenguatge natural en situacions de baixos recursos. El procés proposat
està dissenyat per admetre múltiples idiomes i diversos tipus de text. Es poden utilitzar
grans models lingüístics per mantenir la qualitat de les dades augmentades respecte a les
originals i facilitar diversos conjunts de dades textuals tant en casos monolingües com
multilingües. La qualitat de les dades augmentades és avaluada per humans en funció de
diversos criteris, com ara fluïdesa, coherència i rellevància, i es realitzen avaluacions automàtiques per comprovar la millora en el rendiment del model de llenguatge. Aquesta
avaluació automatitzada utilitza mètriques de darrera generació com BLEU, TER i chrF.
El sistema proposat té com a objectiu millorar la qualitat i quantitat de dades textuals
que es poden utilitzar per a tasques de processament del llenguatge natural, com ara la
traducció automàtica.
[-]
[ES] En este TFG, proponemos un sistema de aumento de datos textuales paralelos para lenguajes o dominios de bajos recursos utilizando diferentes tecnologías como modelos de lenguaje enmascarado, grandes modelos de lenguaje ...[+]
[ES] En este TFG, proponemos un sistema de aumento de datos textuales paralelos para lenguajes o dominios de bajos recursos utilizando diferentes tecnologías como modelos de lenguaje enmascarado, grandes modelos de lenguaje y herramientas y recursos de procesamiento de lenguaje natural. El sistema detecta partes del texto objetivo que pueden reemplazarse por otras nuevas con la misma categoría gramatical a nivel de palabra. Luego, la palabra reemplazada se encuentra en el texto fuente utilizando alineación de palabras entre frases para reemplazarla con un sinónimo adecuado. El proceso incluye pasos iterativos para identificar y reemplazar palabras hasta que no puedan ocurrir más cambios. Nuestro enfoque aborda la necesidad de conjuntos de datos más extensos y de alta calidad en tareas de procesamiento del lenguaje natural en situaciones de bajos recursos. El proceso propuesto está diseñado para admitir múltiples idiomas y varios tipos de texto. Se pueden utilizar modelos de lenguaje grandes para mantener la calidad de los datos aumentados respecto a los originales y facilitar diversos conjuntos de datos textuales tanto en casos monolingües como multilingües. La calidad de los datos aumentados es evaluada por humanos en función de varios criterios, como fluidez, coherencia y relevancia, y se realizan evaluaciones automáticas para comprobar la mejora en el rendimiento del modelo de lenguaje. Esta evaluación automatizada emplea métricas de última generación como BLEU, TER y chrF. El sistema propuesto tiene como objetivo mejorar la calidad y cantidad de datos textuales que se pueden utilizar para tareas de procesamiento del lenguaje natural, como la traducción automática.
[-]
|