- -

Clasificación de dominios a nivel de segmento utilizando modelos preentrenados

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Compartir/Enviar a

Citas

Estadísticas

  • Estadisticas de Uso

Clasificación de dominios a nivel de segmento utilizando modelos preentrenados

Mostrar el registro sencillo del ítem

Ficheros en el ítem

dc.contributor.advisor Paredes Palacios, Roberto es_ES
dc.contributor.advisor Chatzitheodorou, Konstantinos es_ES
dc.contributor.author Gómez Rosabal, Claudia es_ES
dc.date.accessioned 2023-05-15T08:58:44Z
dc.date.available 2023-05-15T08:58:44Z
dc.date.created 2023-04-28
dc.date.issued 2023-05-15 es_ES
dc.identifier.uri http://hdl.handle.net/10251/193368
dc.description.abstract [ES] Con la aparición de Internet, la cantidad de datos disponibles ha aumentado cada vez más. De ahí que clasificar el texto en dominios tenga una gran utilidad a la hora de estructurar y organizar los datos para sacarles más partido y ser utilizados por la comunidad científica para entrenar modelos de Inteligencia Artificial. Además, el entrenamiento de modelos específicos de dominio puede mejorar significativamente la precisión obtenida en casos como la traducción automática y otras tareas de procesamiento de texto. El objetivo del presente trabajo es obtener segmentos etiquetados en 15 dominios, utilizando conjuntos de datos públicos y de la web etiquetados manualmente para realizar un post-análisis y una selección de los mismos que permita crear un conjunto de datos suficientemente representativo. A día de hoy, el Procesamiento del Lenguaje Natural cuenta con una gran variedad de modelos preentrenados basados en grandes corpus de datos que representan una gran cantidad de información, lo que facilita la realización de muchas tareas en este campo. Tras el estudio de varios de estos modelos, como Bert, Roberta y GPT-3, entre otros, se entrenará un modelo clasificador de alta calidad. Por último, se analizarán los resultados y se seleccionará el modelo de mejor rendimiento según las métricas de evaluación. es_ES
dc.description.abstract [EN] With the advent of the Internet, the amount of available data has increased more and more. Hence, classifying text into domains has great utility in structuring and organizing the data to get more out of it and to be used by the scientific community to train Artificial Intelligence models. In addition, training domain-specific models can significantly improve the accuracy obtained in cases such as machine translation and other text processing tasks. The aim of the present work is to obtain labeled segments in 15 domains, using manually labeled public and web datasets to perform a post-analysis and a selection of them to create a sufficiently representative dataset. Nowadays, Natural Language Processing has a wide variety of pre-trained models based on large data corpora representing a large amount of information, which facilitates the performance of many tasks in this field. After the study of several of these models, such as Bert, Roberta and GPT-3, among others, a high quality classifier model will be trained. Finally, the results will be analyzed and the best performing model will be selected according to the evaluation metrics. es_ES
dc.format.extent 59 es_ES
dc.language Español es_ES
dc.publisher Universitat Politècnica de València es_ES
dc.rights Reserva de todos los derechos es_ES
dc.subject Natural Language Processing (NLP) es_ES
dc.subject Clasificación de textos es_ES
dc.subject Etiquetado de temas es_ES
dc.subject Clasificación de dominios es_ES
dc.subject Domain classification es_ES
dc.subject Text classification es_ES
dc.subject Topic labeling es_ES
dc.subject.classification LENGUAJES Y SISTEMAS INFORMATICOS es_ES
dc.subject.other Máster Universitario en Inteligencia Artificial, Reconocimiento de Formas e Imagen Digital-Màster Universitari en Intel·ligència Artificial, Reconeixement de Formes i Imatge Digital es_ES
dc.title Clasificación de dominios a nivel de segmento utilizando modelos preentrenados es_ES
dc.title.alternative Segment level domain classification using pretrained models es_ES
dc.title.alternative Classificació de dominis a nivell de segment utilitzant models pre-entrenats. es_ES
dc.type Tesis de máster es_ES
dc.rights.accessRights Abierto es_ES
dc.contributor.affiliation Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació es_ES
dc.description.bibliographicCitation Gómez Rosabal, C. (2023). Clasificación de dominios a nivel de segmento utilizando modelos preentrenados. Universitat Politècnica de València. http://hdl.handle.net/10251/193368 es_ES
dc.description.accrualMethod TFGM es_ES
dc.relation.pasarela TFGM\155729 es_ES


Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem