Resumen:
|
[ES] Actualmente, el Procesamiento del Lenguaje Natural (PLN) y, en concreto, las técnicas de Reconocimiento de Entidades Nombradas (NER) se encuentran en auge, pero la mayor parte de trabajos que se han realizado están ...[+]
[ES] Actualmente, el Procesamiento del Lenguaje Natural (PLN) y, en concreto, las técnicas de Reconocimiento de Entidades Nombradas (NER) se encuentran en auge, pero la mayor parte de trabajos que se han realizado están enfocados a identificar entidades comunes, como pueden ser personas, organizaciones o localizaciones.
Es por ello que el objetivo del presente trabajo es reconocer entidades que hacen referencia a productos nuevos lanzados por una empresa de una serie de textos en castellano del ámbito farmacéutico, así como clasificar dichos textos en tipo de producto farmacéutico creando una taxonomía previa.
Para conseguir este objetivo, noticias relacionadas con esta temática han sido recuperadas de internet, limpiadas y etiquetadas de manera fiable mediante técnicas de PLN para generar un corpus. A continuación, a varios modelos de lenguaje pre-entrenados se les ha realizado un fine-tuning (seleccionar un modelo de lenguaje pre-entrenado y refinar su entrenamiento con un conjunto de datos específico de una tarea en particular), para aprovechar su conocimiento del contexto y el idioma y para resolver las dos tareas mencionadas, es decir, reconocimiento de entidades por un lado y clasificación de textos por otro.
Tras comparar un total de cuatro modelos pre-entrenados (mBERT, BETO, DistilBERT y RoBERTa) y optimizar sus parámetros, el Transformer que mejores resultados ha dado ha sido el basado en BETO, obteniendo para el reconocimiento de las entidades empresa y producto un Accuracy de 0.97 y un F1-score de 0.67, mientras que para la tarea de clasificación de textos se ha conseguido un 0.83 de Accuracy y un 0.82 de F1-score.
[-]
[EN] Currently, Natural Language Processing (NLP) and, specifically, Named Entity Recognition (NER) techniques are booming, but most of the work that has been done is focused on identifying common entities, such as people, ...[+]
[EN] Currently, Natural Language Processing (NLP) and, specifically, Named Entity Recognition (NER) techniques are booming, but most of the work that has been done is focused on identifying common entities, such as people, organizations or locations.
That is why the objective of this paper is to recognize entities that refer to new products launched by a company from a series of texts in Spanish in the pharmaceutical field, as well as to classify said texts by type of pharmaceutical product, creating a prior taxonomy.
To achieve this objective, news related to this topic have been retrieved from the internet, cleaned and labeled in a reliable way using NLP techniques to generate a corpus. Next, some pre-trained language models have been fine-tuned (select a pre-trained language model and refine its training with an specific data set of a particular task), to take advantage of their knowledge of the context and the language and to solve the two mentioned tasks, that is, entity recognition on the one hand and text classification on the other.
After comparing four pre-trained models (mBERT, BETO, DistilBERT y RoBERTa) and optimizing their parameters, the Transformer that has given the best results has been the one based on BETO, obtaining an Accuracy of 0.97 and an F1-score of 0.67 for recognition by the company and product entities, while for the text classification task, an Accuracy of 0.83 and an F1-score of 0.82 have been achieved.
[-]
[CA] Actualment, el Processament del Llenguatge Natural (PLN) i, en concret, les tècniques de
Reconeixement d'Entitats Nomenades (NER) es troben en apogeu, però la major part de treballs
que s'han realitzat estan enfocats ...[+]
[CA] Actualment, el Processament del Llenguatge Natural (PLN) i, en concret, les tècniques de
Reconeixement d'Entitats Nomenades (NER) es troben en apogeu, però la major part de treballs
que s'han realitzat estan enfocats a identificar entitats comunes, com poden ser persones,
organitzacions o localitzacions.
És per això que l'objectiu del present treball és reconèixer entitats que fan referència a
productes nous llançats per una empresa d'una sèrie de textos en castellà de l'àmbit farmacèutic,
així com classificar aquests textos en tipus de producte farmacèutic creant una taxonomia
prèvia.
Per aconseguir aquest objectiu, notícies relacionades amb aquesta temàtica han estat
recuperades d'Internet, netejades i etiquetades de manera fiable amb tècniques de PLN per
generar un corpus. A continuació, a diversos models de llenguatge pre-entrenats se'ls ha realitzat
un fine-tuning (seleccionar un model de llenguatge pre-entrenat i refinar el seu entrenament amb
un conjunt de dades específic d'una tasca en particular), per aprofitar el coneixement del context
i l'idioma i per a resoldre les dues tasques esmentades, és a dir, reconeixement d'entitats per un
costat i classificació de textos per un altre.
Després de comparar un total de quatre models pre-entrenats (mBERT, BETO, DistilBERT y
RoBERTa) i optimitzar els seus paràmetres, el Transformer que millors resultats ha donat ha
estat el basat en BETO, obtenint per al reconeixement de les entitats empresa i producte un
Accuracy de 0.97 i un F1-score de 0.67, mentre que per a la tasca de classificació de textos s'ha
aconseguit un 0.83 d'Accuracy i un 0.82 de F1-score.
[-]
|