Resumen:
|
[ES] Con la aparición de Internet, la cantidad de datos
disponibles ha aumentado cada vez más. De ahí que clasificar el texto
en dominios tenga una gran utilidad a la hora de estructurar y
organizar los datos para ...[+]
[ES] Con la aparición de Internet, la cantidad de datos
disponibles ha aumentado cada vez más. De ahí que clasificar el texto
en dominios tenga una gran utilidad a la hora de estructurar y
organizar los datos para sacarles más partido y ser utilizados por la
comunidad científica para entrenar modelos de Inteligencia Artificial.
Además, el entrenamiento de modelos específicos de dominio puede
mejorar significativamente la precisión obtenida en casos como la
traducción automática y otras tareas de procesamiento de texto. El
objetivo del presente trabajo es obtener segmentos etiquetados en 15
dominios, utilizando conjuntos de datos públicos y de la web
etiquetados manualmente para realizar un post-análisis y una selección
de los mismos que permita crear un conjunto de datos suficientemente
representativo. A día de hoy, el Procesamiento del Lenguaje Natural
cuenta con una gran variedad de modelos preentrenados basados en
grandes corpus de datos que representan una gran cantidad de
información, lo que facilita la realización de muchas tareas en este
campo. Tras el estudio de varios de estos modelos, como Bert, Roberta
y GPT-3, entre otros, se entrenará un modelo clasificador de alta
calidad. Por último, se analizarán los resultados y se seleccionará el
modelo de mejor rendimiento según las métricas de evaluación.
[-]
[EN] With the advent of the Internet, the amount of available data has increased more and more. Hence, classifying text into domains has great utility in structuring and organizing the data to get more out of it and to be ...[+]
[EN] With the advent of the Internet, the amount of available data has increased more and more. Hence, classifying text into domains has great utility in structuring and organizing the data to get more out of it and to be used by the scientific community to train Artificial Intelligence models. In addition, training domain-specific models can significantly improve the accuracy obtained in cases such as machine translation and other text processing tasks. The aim of the present work is to obtain labeled segments in 15 domains, using manually labeled public and web datasets to perform a post-analysis and a selection of them to create a sufficiently representative dataset. Nowadays, Natural Language Processing has a wide variety of pre-trained models based on large data corpora representing a large amount of information, which facilitates the performance of many tasks in this field. After the study of several of these models, such as Bert, Roberta and GPT-3, among others, a high quality classifier model will be trained. Finally, the results will be analyzed and the best performing model will be selected according to the evaluation metrics.
[-]
|