- -

Reconocimiento de entidades nombradas en el dominio farmacéutico

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Compartir/Enviar a

Citas

Estadísticas

  • Estadisticas de Uso

Reconocimiento de entidades nombradas en el dominio farmacéutico

Mostrar el registro sencillo del ítem

Ficheros en el ítem

dc.contributor.advisor Rosso, Paolo es_ES
dc.contributor.advisor Asensio Marco, César es_ES
dc.contributor.author Marcos Ramón, Mario es_ES
dc.date.accessioned 2023-10-20T11:11:40Z
dc.date.available 2023-10-20T11:11:40Z
dc.date.created 2023-09-22
dc.date.issued 2023-10-20 es_ES
dc.identifier.uri http://hdl.handle.net/10251/198450
dc.description.abstract [ES] Actualmente, el Procesamiento del Lenguaje Natural (PLN) y, en concreto, las técnicas de Reconocimiento de Entidades Nombradas (NER) se encuentran en auge, pero la mayor parte de trabajos que se han realizado están enfocados a identificar entidades comunes, como pueden ser personas, organizaciones o localizaciones. Es por ello que el objetivo del presente trabajo es reconocer entidades que hacen referencia a productos nuevos lanzados por una empresa de una serie de textos en castellano del ámbito farmacéutico, así como clasificar dichos textos en tipo de producto farmacéutico creando una taxonomía previa. Para conseguir este objetivo, noticias relacionadas con esta temática han sido recuperadas de internet, limpiadas y etiquetadas de manera fiable mediante técnicas de PLN para generar un corpus. A continuación, a varios modelos de lenguaje pre-entrenados se les ha realizado un fine-tuning (seleccionar un modelo de lenguaje pre-entrenado y refinar su entrenamiento con un conjunto de datos específico de una tarea en particular), para aprovechar su conocimiento del contexto y el idioma y para resolver las dos tareas mencionadas, es decir, reconocimiento de entidades por un lado y clasificación de textos por otro. Tras comparar un total de cuatro modelos pre-entrenados (mBERT, BETO, DistilBERT y RoBERTa) y optimizar sus parámetros, el Transformer que mejores resultados ha dado ha sido el basado en BETO, obteniendo para el reconocimiento de las entidades empresa y producto un Accuracy de 0.97 y un F1-score de 0.67, mientras que para la tarea de clasificación de textos se ha conseguido un 0.83 de Accuracy y un 0.82 de F1-score. es_ES
dc.description.abstract [EN] Currently, Natural Language Processing (NLP) and, specifically, Named Entity Recognition (NER) techniques are booming, but most of the work that has been done is focused on identifying common entities, such as people, organizations or locations. That is why the objective of this paper is to recognize entities that refer to new products launched by a company from a series of texts in Spanish in the pharmaceutical field, as well as to classify said texts by type of pharmaceutical product, creating a prior taxonomy. To achieve this objective, news related to this topic have been retrieved from the internet, cleaned and labeled in a reliable way using NLP techniques to generate a corpus. Next, some pre-trained language models have been fine-tuned (select a pre-trained language model and refine its training with an specific data set of a particular task), to take advantage of their knowledge of the context and the language and to solve the two mentioned tasks, that is, entity recognition on the one hand and text classification on the other. After comparing four pre-trained models (mBERT, BETO, DistilBERT y RoBERTa) and optimizing their parameters, the Transformer that has given the best results has been the one based on BETO, obtaining an Accuracy of 0.97 and an F1-score of 0.67 for recognition by the company and product entities, while for the text classification task, an Accuracy of 0.83 and an F1-score of 0.82 have been achieved. es_ES
dc.description.abstract [CA] Actualment, el Processament del Llenguatge Natural (PLN) i, en concret, les tècniques de Reconeixement d'Entitats Nomenades (NER) es troben en apogeu, però la major part de treballs que s'han realitzat estan enfocats a identificar entitats comunes, com poden ser persones, organitzacions o localitzacions. És per això que l'objectiu del present treball és reconèixer entitats que fan referència a productes nous llançats per una empresa d'una sèrie de textos en castellà de l'àmbit farmacèutic, així com classificar aquests textos en tipus de producte farmacèutic creant una taxonomia prèvia. Per aconseguir aquest objectiu, notícies relacionades amb aquesta temàtica han estat recuperades d'Internet, netejades i etiquetades de manera fiable amb tècniques de PLN per generar un corpus. A continuació, a diversos models de llenguatge pre-entrenats se'ls ha realitzat un fine-tuning (seleccionar un model de llenguatge pre-entrenat i refinar el seu entrenament amb un conjunt de dades específic d'una tasca en particular), per aprofitar el coneixement del context i l'idioma i per a resoldre les dues tasques esmentades, és a dir, reconeixement d'entitats per un costat i classificació de textos per un altre. Després de comparar un total de quatre models pre-entrenats (mBERT, BETO, DistilBERT y RoBERTa) i optimitzar els seus paràmetres, el Transformer que millors resultats ha donat ha estat el basat en BETO, obtenint per al reconeixement de les entitats empresa i producte un Accuracy de 0.97 i un F1-score de 0.67, mentre que per a la tasca de classificació de textos s'ha aconseguit un 0.83 d'Accuracy i un 0.82 de F1-score. es_ES
dc.format.extent 60 es_ES
dc.language Español es_ES
dc.publisher Universitat Politècnica de València es_ES
dc.rights Reserva de todos los derechos es_ES
dc.subject Procesamiento del Lenguaje Natural (PLN) es_ES
dc.subject Reconocimiento de Entidades Nombradas (NER) es_ES
dc.subject Ámbito farmacéutico es_ES
dc.subject Transformer es_ES
dc.subject Natural Language Processing (NLP) es_ES
dc.subject Named Entity Recognition (NER) es_ES
dc.subject Pharmaceutical field es_ES
dc.subject Fine-tuning es_ES
dc.subject.classification LENGUAJES Y SISTEMAS INFORMATICOS es_ES
dc.subject.other Grado en Ciencia de Datos-Grau en Ciència de Dades es_ES
dc.title Reconocimiento de entidades nombradas en el dominio farmacéutico es_ES
dc.title.alternative Named Entity Recognition in the pharmaceutical domain es_ES
dc.title.alternative Reconeixement d'entitats nomenades en el domini farmacèutic es_ES
dc.type Proyecto/Trabajo fin de carrera/grado es_ES
dc.rights.accessRights Abierto es_ES
dc.contributor.affiliation Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació es_ES
dc.contributor.affiliation Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica es_ES
dc.description.bibliographicCitation Marcos Ramón, M. (2023). Reconocimiento de entidades nombradas en el dominio farmacéutico. Universitat Politècnica de València. http://hdl.handle.net/10251/198450 es_ES
dc.description.accrualMethod TFGM es_ES
dc.relation.pasarela TFGM\158358 es_ES


Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem