Resumen:
|
[ES] La tarea de resumen automático de texto se ha abordado en la literatura mediante enfoques abstractivos, extractivos y mixtos. Los enfoques extractivos componen resúmenes seleccionando oraciones o palabras directamente ...[+]
[ES] La tarea de resumen automático de texto se ha abordado en la literatura mediante enfoques abstractivos, extractivos y mixtos. Los enfoques extractivos componen resúmenes seleccionando oraciones o palabras directamente de los documentos, mientras que los enfoques abstractivos construyen los resúmenes reescribiendo las principales oraciones de los documentos, más similares a los que suelen generar los humanos. Los sistemas de resumen tanto extractivos como abstractivos del estado del arte estan basados en modelos neuronales.
Uno de los retos en el caso de los modelos abstractivos aplicados a documentos periodísticos es el gran tamaño que presentan la mayor parte de estos artículos. Es por ello que se ha planteado la posibilidad de preprocesar los artículos para conseguir una versión más corta de los mismos antes de alimentar el modelo abstractivo. En este trabajo se propone construir un modelo para resumen abstractivo basado en la conexión secuencial de un modelo neuronal extractivo con un modelo neuronal abstractivo, ambos modelos ya desarrolados previamente y basados en redes neuronales de tipo transformer. Dado un artículo periodístico, en un primer paso se aplicará el modelo de resumen extractivo para generar un primer resumen del documento de longitud adecuada. En un segundo paso este resumen se ofrecerá como entrada al modelo de resumen abstractivo. Esta propuesta se aplicará a un corpus de noticias en catalán que proporciona una colección de pares (artículo, resumen), en la que la mayor parte de los resúmenes son de naturaleza abstractiva.
[-]
[EN] The automatic text summarization task has been approached in the literature using abstractive, extractive, and mixed approaches. Extractive approaches compose summaries by selecting sentences or words directly from ...[+]
[EN] The automatic text summarization task has been approached in the literature using abstractive, extractive, and mixed approaches. Extractive approaches compose summaries by selecting sentences or words directly from documents, while abstractive approaches build summaries by rewriting the main sentences of documents, more similar to those typically generated by humans. State-of-the-art abstractive and extractive summary systems are based on neural models.
One of the challenges in the case of abstractive models applied to journalistic documents is the large size of most of these articles. That is why the possibility of preprocessing the articles to obtain a shorter version of them before feeding the abstractive model has been considered. In this work, it is proposed to build a model for abstractive summarization based on the sequential connection of an extractive neural model with an abstractive neural model, both models already developed previously and based on transformers. Given a journalistic article, in a first step the extractive summary model will be applied to generate a first summary of the document of an adequate length. In a second step, this summary will be offered as input to the abstractive summary model. This proposal will be applied to a corpus of news in Catalan that provides a collection of pairs (article, abstract), in which most of the abstracts are of an abstract nature.
[-]
|