Resumen:
|
[ES] El propòsit final de la generació automàtica de resums és tornar un text considerablement més breu que l'original però mantenint les idees i els aspectes principals. Amb aquesta acció es pot col·laborar a agilitzar ...[+]
[ES] El propòsit final de la generació automàtica de resums és tornar un text considerablement més breu que l'original però mantenint les idees i els aspectes principals. Amb aquesta acció es pot col·laborar a agilitzar les tasques de tractament d informació en àmbits tan diversos com la bibliografia mèdica, documents legals, articles periodístics, etc. Els sistemes principals de resum automàtic de l'estat de l'art són abstractius, és a dir, construeixen els resums reescrivint la informació més rellevant dels documents, i estan basats en xarxes neuronals profundes (transformers i longformers principalment).
Les publicacions biomèdiques contenen les darreres investigacions sobre temes destacats relacionats amb la salut, que van des de malalties comunes fins a pandèmies globals. Sovint això pot fer que el contingut sigua d'interès per a una àmplia varietat d'audiències, inclosos investigadors, professionals mèdics, periodistes i fins i tot el públic en general. No obstant això, el llenguatge altament tècnic i especialitzat que s'utilitza en aquests articles normalment dificulta que el públic no expert en comprenga el contingut.
La tasca que es pretén abordar gira al voltant del resum abstractiu d'articles biomèdics, amb èmfasi a atendre audiències no expertes mitjançant la generació de resums que siguin més llegibles, que continguen més informació general i menys terminologia tècnica, cosa que es coneix com a llenguatge simplificat. En concret, tenint en compte el resum tècnic i el text principal d'un article com a entrada, l'objectiu d'aquest treball consisteix a construir un model que genere el resum en llenguatge simplificat. Es disposa de dos conjunts de dades, PLOS i eLife, del domini biomèdic, amb els triplets (article, resum tècnic, resum en llenguatge simplificat).
Es proposa l ús de models longformer a causa de la longitud de l entrada, així com l'ús de diferents estratègies per millorar els resultats. Entre d'altres, es pot treballar amb la incorporació de coneixement extern derivat de grafs de coneixement, generació condicionada de text o tècniques d'augment de dades (Data Augmentation).
[-]
[EN] The final purpose of automatic summary generation is to return a text considerably shorter than the original but retaining the main ideas and aspects. With this action you can collaborate in streamlining information ...[+]
[EN] The final purpose of automatic summary generation is to return a text considerably shorter than the original but retaining the main ideas and aspects. With this action you can collaborate in streamlining information processing tasks in areas as diverse as medical bibliography, legal documents, journalistic articles, etc. The main state-of-the-art automatic summary systems are abstractive, that is, they construct summaries by rewriting the most relevant information in the documents, and are based on deep neural networks (mainly transformers and longformers).
Biomedical journals contain the latest research on prominent health-related topics, ranging from common diseases to global pandemics. This can often make their content of interest to a wide variety of audiences, including researchers, medical professionals, journalists, and even the general public. However, the highly technical and specialized language used in such articles typically makes it difficult for non-expert audiences to understand their content.
The task to be addressed focuses on the abstractive summary of biomedical articles, with an emphasis on serving non-expert audiences by generating summaries that are more readable, containing more general information and less technical terminology, known as simplified language. Specifically, given the technical summary and the main text of an article as input, the objective of this work is to build a model that generates the corresponding simplified language summary. Two data sets, PLOS and eLife, are available from the biomedical domain, with the triplets (article, technical summary, summary in simplified language).
The use of longformer models is proposed due to the length of the input, as well as the use of different strategies to improve the results. Among others, we can work with the incorporation of external knowledge derived from knowledge graphs, the conditioned generation of text, or data augmentation techniques.
[-]
|