Mostrar el registro sencillo del ítem
dc.contributor.advisor | Paredes Palacios, Roberto | es_ES |
dc.contributor.advisor | Chatzitheodorou, Konstantinos | es_ES |
dc.contributor.author | Gómez Rosabal, Claudia | es_ES |
dc.date.accessioned | 2023-05-15T08:58:44Z | |
dc.date.available | 2023-05-15T08:58:44Z | |
dc.date.created | 2023-04-28 | |
dc.date.issued | 2023-05-15 | es_ES |
dc.identifier.uri | http://hdl.handle.net/10251/193368 | |
dc.description.abstract | [ES] Con la aparición de Internet, la cantidad de datos disponibles ha aumentado cada vez más. De ahí que clasificar el texto en dominios tenga una gran utilidad a la hora de estructurar y organizar los datos para sacarles más partido y ser utilizados por la comunidad científica para entrenar modelos de Inteligencia Artificial. Además, el entrenamiento de modelos específicos de dominio puede mejorar significativamente la precisión obtenida en casos como la traducción automática y otras tareas de procesamiento de texto. El objetivo del presente trabajo es obtener segmentos etiquetados en 15 dominios, utilizando conjuntos de datos públicos y de la web etiquetados manualmente para realizar un post-análisis y una selección de los mismos que permita crear un conjunto de datos suficientemente representativo. A día de hoy, el Procesamiento del Lenguaje Natural cuenta con una gran variedad de modelos preentrenados basados en grandes corpus de datos que representan una gran cantidad de información, lo que facilita la realización de muchas tareas en este campo. Tras el estudio de varios de estos modelos, como Bert, Roberta y GPT-3, entre otros, se entrenará un modelo clasificador de alta calidad. Por último, se analizarán los resultados y se seleccionará el modelo de mejor rendimiento según las métricas de evaluación. | es_ES |
dc.description.abstract | [EN] With the advent of the Internet, the amount of available data has increased more and more. Hence, classifying text into domains has great utility in structuring and organizing the data to get more out of it and to be used by the scientific community to train Artificial Intelligence models. In addition, training domain-specific models can significantly improve the accuracy obtained in cases such as machine translation and other text processing tasks. The aim of the present work is to obtain labeled segments in 15 domains, using manually labeled public and web datasets to perform a post-analysis and a selection of them to create a sufficiently representative dataset. Nowadays, Natural Language Processing has a wide variety of pre-trained models based on large data corpora representing a large amount of information, which facilitates the performance of many tasks in this field. After the study of several of these models, such as Bert, Roberta and GPT-3, among others, a high quality classifier model will be trained. Finally, the results will be analyzed and the best performing model will be selected according to the evaluation metrics. | es_ES |
dc.format.extent | 59 | es_ES |
dc.language | Español | es_ES |
dc.publisher | Universitat Politècnica de València | es_ES |
dc.rights | Reserva de todos los derechos | es_ES |
dc.subject | Natural Language Processing (NLP) | es_ES |
dc.subject | Clasificación de textos | es_ES |
dc.subject | Etiquetado de temas | es_ES |
dc.subject | Clasificación de dominios | es_ES |
dc.subject | Domain classification | es_ES |
dc.subject | Text classification | es_ES |
dc.subject | Topic labeling | es_ES |
dc.subject.classification | LENGUAJES Y SISTEMAS INFORMATICOS | es_ES |
dc.subject.other | Máster Universitario en Inteligencia Artificial, Reconocimiento de Formas e Imagen Digital-Màster Universitari en Intel·ligència Artificial, Reconeixement de Formes i Imatge Digital | es_ES |
dc.title | Clasificación de dominios a nivel de segmento utilizando modelos preentrenados | es_ES |
dc.title.alternative | Segment level domain classification using pretrained models | es_ES |
dc.title.alternative | Classificació de dominis a nivell de segment utilitzant models pre-entrenats. | es_ES |
dc.type | Tesis de máster | es_ES |
dc.rights.accessRights | Abierto | es_ES |
dc.contributor.affiliation | Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació | es_ES |
dc.description.bibliographicCitation | Gómez Rosabal, C. (2023). Clasificación de dominios a nivel de segmento utilizando modelos preentrenados. Universitat Politècnica de València. http://hdl.handle.net/10251/193368 | es_ES |
dc.description.accrualMethod | TFGM | es_ES |
dc.relation.pasarela | TFGM\155729 | es_ES |