Resumen:
|
[CA] La tasca de resum automàtic de textos s’ha abordat en la literatura mitjançant enfocaments extractius i abstractius. Els enfocaments extractius composen els resums seleccionant oracions o paraules directament dels ...[+]
[CA] La tasca de resum automàtic de textos s’ha abordat en la literatura mitjançant enfocaments extractius i abstractius. Els enfocaments extractius composen els resums seleccionant oracions o paraules directament dels documents, mentre que els enfocaments abstractius construeixen els resums reescrivint les principals oracions dels documents, més
semblants als que solen generar els humans. Els sistemes principals de resum de l’estat
de l’art són abstractius i estan basats en xarxes neuronals profundes (Transformers principalment). Hi ha un corpus de notícies periodístiques en català i en espanyol, DACSA,
que proporciona una col·lecció de parells (article, resum). El corpus conté notícies procedents de diferents fonts periodístiques. En aquest treball es proposa construir models
de resum abstractius per a aquest corpus, que incorporen en la fase d’ajust (fine-tuning)
a partir d’un model de llenguatge preentrenat, a més de les dades de la tasca de resum,
la informació de la font periodística associada al parell (article, resum). Aquest entrenament ens ajudarà a estudiar si hi ha diferents estils a les fonts a l’hora de redactar els
resums. Així mateix, ens permetrà estudiar l’efecte d’indicar al sistema una font en concret a l’hora de resumir un article determinat, que pot coincidir o no amb la font original
de l’article.
[-]
[ES] La tarea de resumen automático de textos se ha abordado en la literatura mediante
enfoques extractivos y abstractivos. Los enfoques extractivos componen los resúmenes
seleccionando oraciones o palabras directamente ...[+]
[ES] La tarea de resumen automático de textos se ha abordado en la literatura mediante
enfoques extractivos y abstractivos. Los enfoques extractivos componen los resúmenes
seleccionando oraciones o palabras directamente de los documentos, mientras que los
enfoques abstractivos construyen los resúmenes reescribiendo las principales oraciones
de los documentos, más similares a los que suelen generar los humanos. Los sistemas
principales de resumen del estado del arte son abstractivos y están basados en redes neuronales profundas (Transformers principalmente). Hay un corpus de noticias periodísticas en catalán y en español, DACSA, que proporciona una colección de pares (artículo,
resumen). El corpus contiene noticias procedentes de diferentes fuentes periodísticas. En
este trabajo se propone construir modelos de resumen abstractivos para este corpus, que
incorporen en la fase de ajuste (fine-tuning) a partir de un modelo de lenguaje preentrenado, además de los datos de la tarea de resumen, la información de la fuente periodística asociada al par (artículo, resumen). Este entrenamiento nos ayudará a estudiar si hay
diferentes estilos en las fuentes a la hora de redactar los resúmenes. Asimismo, nos permitirá estudiar el efecto de indicar al sistema una fuente en concreto a la hora de resumir
un artículo determinado, que puede coincidir o no con la fuente original del artículo.
[-]
[EN] The task of automatic text summarization has been approached in the literature through
extractive and abstractive approaches. Extractive approaches compose the summaries by
selecting sentences or words directly from ...[+]
[EN] The task of automatic text summarization has been approached in the literature through
extractive and abstractive approaches. Extractive approaches compose the summaries by
selecting sentences or words directly from the documents, while abstractive approaches
construct the summaries by rewriting the main sentences of the documents, more similar
to those generated by humans. The main state-of-the-art summary systems are abstractive and based on deep neural networks (primarily Transformers). There is a corpus of journalistic news in Catalan and Spanish, DACSA, which provides a collection of pairs
(article, summary). The corpus contains news from different journalistic sources. In this
work, we propose to build abstractive summary models for this corpus, which incorporate in the fine-tuning phase from a pre-trained language model, in addition to the
summary task data, the information of the journalistic source associated with the pair
(article, summary). This training will help us to study if there are different styles in the
sources when writing the summaries. Likewise, it will allow us to study the effect of indicating to the system a specific source when summarizing a specific article, which may
or may not coincide with the original source of the article.
[-]
|