- -

Condicionant l'estil en la generació de resums abstractius de notícies

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Compartir/Enviar a

Citas

Estadísticas

  • Estadisticas de Uso

Condicionant l'estil en la generació de resums abstractius de notícies

Mostrar el registro sencillo del ítem

Ficheros en el ítem

dc.contributor.advisor Hurtado Oliver, Lluis Felip es_ES
dc.contributor.advisor Segarra Soriano, Encarnación es_ES
dc.contributor.advisor Ahuir Esteve, Vicent es_ES
dc.contributor.author Torres Bertomeu, Diego es_ES
dc.date.accessioned 2023-09-26T09:00:18Z
dc.date.available 2023-09-26T09:00:18Z
dc.date.created 2023-07-13
dc.date.issued 2023-09-26 es_ES
dc.identifier.uri http://hdl.handle.net/10251/197102
dc.description.abstract [CA] La tasca de resum automàtic de textos s’ha abordat en la literatura mitjançant enfocaments extractius i abstractius. Els enfocaments extractius composen els resums seleccionant oracions o paraules directament dels documents, mentre que els enfocaments abstractius construeixen els resums reescrivint les principals oracions dels documents, més semblants als que solen generar els humans. Els sistemes principals de resum de l’estat de l’art són abstractius i estan basats en xarxes neuronals profundes (Transformers principalment). Hi ha un corpus de notícies periodístiques en català i en espanyol, DACSA, que proporciona una col·lecció de parells (article, resum). El corpus conté notícies procedents de diferents fonts periodístiques. En aquest treball es proposa construir models de resum abstractius per a aquest corpus, que incorporen en la fase d’ajust (fine-tuning) a partir d’un model de llenguatge preentrenat, a més de les dades de la tasca de resum, la informació de la font periodística associada al parell (article, resum). Aquest entrenament ens ajudarà a estudiar si hi ha diferents estils a les fonts a l’hora de redactar els resums. Així mateix, ens permetrà estudiar l’efecte d’indicar al sistema una font en concret a l’hora de resumir un article determinat, que pot coincidir o no amb la font original de l’article. es_ES
dc.description.abstract [ES] La tarea de resumen automático de textos se ha abordado en la literatura mediante enfoques extractivos y abstractivos. Los enfoques extractivos componen los resúmenes seleccionando oraciones o palabras directamente de los documentos, mientras que los enfoques abstractivos construyen los resúmenes reescribiendo las principales oraciones de los documentos, más similares a los que suelen generar los humanos. Los sistemas principales de resumen del estado del arte son abstractivos y están basados en redes neuronales profundas (Transformers principalmente). Hay un corpus de noticias periodísticas en catalán y en español, DACSA, que proporciona una colección de pares (artículo, resumen). El corpus contiene noticias procedentes de diferentes fuentes periodísticas. En este trabajo se propone construir modelos de resumen abstractivos para este corpus, que incorporen en la fase de ajuste (fine-tuning) a partir de un modelo de lenguaje preentrenado, además de los datos de la tarea de resumen, la información de la fuente periodística asociada al par (artículo, resumen). Este entrenamiento nos ayudará a estudiar si hay diferentes estilos en las fuentes a la hora de redactar los resúmenes. Asimismo, nos permitirá estudiar el efecto de indicar al sistema una fuente en concreto a la hora de resumir un artículo determinado, que puede coincidir o no con la fuente original del artículo. es_ES
dc.description.abstract [EN] The task of automatic text summarization has been approached in the literature through extractive and abstractive approaches. Extractive approaches compose the summaries by selecting sentences or words directly from the documents, while abstractive approaches construct the summaries by rewriting the main sentences of the documents, more similar to those generated by humans. The main state-of-the-art summary systems are abstractive and based on deep neural networks (primarily Transformers). There is a corpus of journalistic news in Catalan and Spanish, DACSA, which provides a collection of pairs (article, summary). The corpus contains news from different journalistic sources. In this work, we propose to build abstractive summary models for this corpus, which incorporate in the fine-tuning phase from a pre-trained language model, in addition to the summary task data, the information of the journalistic source associated with the pair (article, summary). This training will help us to study if there are different styles in the sources when writing the summaries. Likewise, it will allow us to study the effect of indicating to the system a specific source when summarizing a specific article, which may or may not coincide with the original source of the article. es_ES
dc.format.extent 97 es_ES
dc.language Catalán es_ES
dc.publisher Universitat Politècnica de València es_ES
dc.rights Reserva de todos los derechos es_ES
dc.subject Resum de texts periodístics es_ES
dc.subject Resum abstractiu es_ES
dc.subject Transformers es_ES
dc.subject Català es_ES
dc.subject Espanyol es_ES
dc.subject Summary of journalistic texts es_ES
dc.subject Abstractive summary es_ES
dc.subject Catalan es_ES
dc.subject Spanish es_ES
dc.subject.classification LENGUAJES Y SISTEMAS INFORMATICOS es_ES
dc.subject.other Grado en Ingeniería Informática-Grau en Enginyeria Informàtica es_ES
dc.title Condicionant l'estil en la generació de resums abstractius de notícies es_ES
dc.title.alternative Conditioning the style in the generation of abstractive news summaries es_ES
dc.title.alternative Condicionando el estilo en la generación de resúmenes abstractivos de noticias es_ES
dc.type Proyecto/Trabajo fin de carrera/grado es_ES
dc.rights.accessRights Abierto es_ES
dc.contributor.affiliation Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació es_ES
dc.contributor.affiliation Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica es_ES
dc.description.bibliographicCitation Torres Bertomeu, D. (2023). Condicionant l'estil en la generació de resums abstractius de notícies. Universitat Politècnica de València. http://hdl.handle.net/10251/197102 es_ES
dc.description.accrualMethod TFGM es_ES
dc.relation.pasarela TFGM\155454 es_ES


Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem