- -

Creación de un corpus de artículos de prensa y generación automática de resúmenes

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Compartir/Enviar a

Citas

Estadísticas

  • Estadisticas de Uso

Creación de un corpus de artículos de prensa y generación automática de resúmenes

Mostrar el registro sencillo del ítem

Ficheros en el ítem

dc.contributor.advisor Segarra Soriano, Encarnación es_ES
dc.contributor.advisor Hurtado Oliver, Lluis Felip es_ES
dc.contributor.author Alcina Sanchis, Fernando es_ES
dc.date.accessioned 2019-10-14T18:36:52Z
dc.date.available 2019-10-14T18:36:52Z
dc.date.created 2019-09-19
dc.date.issued 2019-10-14 es_ES
dc.identifier.uri http://hdl.handle.net/10251/128334
dc.description.abstract [ES] La generación automática de resúmenes es un campo muy atractivo y vigente dentro del área del procesamiento del lenguaje natural. Por esta razón, en este trabajo, se han decidido analizar y comparar distintas técnicas para la generación automática de resúmenes tanto basadas en redes neuronales como basadas en algoritmos clásicos. Para la evaluación de estas técnicas, se utilizan métricas sintácticas usadas en la mayoría de estudios de este campo y métricas semánticas propuestas en este mismo trabajo. Mediante este estudio, se podrán observar las diferencias que existen entre las dos evaluaciones comentadas anteriormente y la mejora que aporta la medida semántica propuesta. Para la utilización de aproximaciones de resumen basadas en redes neuronales y para la evaluación de todos los sistemas, se requiere un corpus de documentos y resúmenes. Por este motivo, mediante un proceso de crawling, se ha elaborado un corpus de noticias que provienen de distintos sitios web de prensa digital y para los idiomas de castellano y catalán. Finalmente, el trabajo contiene un extenso análisis de los resultados experimentales obtenidos en los corpus. En este, se podrán observar las diferencias que existen entre las noticias que contienen ambos corpus utilizando para ello distintas medidas. Además, se compararán los corpus generados con otros corpus que forman parte del estado del arte. es_ES
dc.description.abstract [CA] La generació automàtica de resums és un camp molt atractiu i vigent dins de l’àrea del processament del llenguatge natural. Per aquesta raó, en aquest treball, s’ha decidit analitzar i comparar distintes tècniques per a la generació automàtica de resums, tant basades en xarxes neuronals com basades en algoritmes clàssics. Per a l’avaluació d’aquestes tècniques es fan servir mètriques sintàctiques utilitzades en la major part d’estudis d’aquest camp i mètriques semàntiques propostes en aquest treball. Mitjançant aquest estudi, es podran observar les diferències que existeixen entre les dues avaluacions comentades anteriorment i la millora que aporta la mesura semàntica proposta. Per a l’ús d’aproximacions de resum basades en xarxes neuronals i per a l’avaluació de tots els sistemes, es requereix un corpus de documents i resums. Per aquest motiu, mitjançant un procés de crawling, s’ha elaborat un corpus de notícies que provenen de distints llocs web de premsa digital i per als idiomes de castellà i català. Finalment, el treball conté un extens anàlisi dels resultats experimentals obtinguts en el corpus. En aquest es podran observar les diferències que existeixen entre les notícies que contenen ambdós corpus emprant distintes mesures. A més, es compararan els corpus generats amb altres corpus que formen part del estat de l’art. es_ES
dc.description.abstract [EN] Automatic summary generation is a current and very attractive field in the area of natural language processing. For this reason, in this work, it has been decided to analyse and compare different techniques for automatic abstract generation both based on neural net-work and based on classical algorithms. For the evaluation of these techniques, syntactic metrics used in most studies of this field and semantic metrics proposed in this work have been used. Through this study, differences between the two evaluations discussed above can be seen. Moreover, improvements introduces by the semantic measure proposal are also presented. For the use of summary approaches based on neural networks and for the evaluation of all systems, a corpus of documents and summaries is required. For this reason, through a crawling process, a corpus of news that come from different digital press websites has been prepared in both Spanish and Catalan languages. Finally, the work contains an extensive analysis of the experimental results obtained with the corpus. In it, the existing differences between the news contained in both corpus can be observed. At the same time, a comparison of the different measures has been included. In addition, the generated corpus will be compared with other corpus that take part of the state of the art. es_ES
dc.format.extent 86 es_ES
dc.language Español es_ES
dc.publisher Universitat Politècnica de València es_ES
dc.rights Reconocimiento - No comercial (by-nc) es_ES
dc.subject Corpus d’articles de premsa es_ES
dc.subject Resum automàtic es_ES
dc.subject Xarxes neuronals es_ES
dc.subject Crawling es_ES
dc.subject Embeddings es_ES
dc.subject Corpus de artículos de prensa es_ES
dc.subject Resumen automático es_ES
dc.subject Redes Neuronales es_ES
dc.subject News Corpus Creation es_ES
dc.subject Automatic summarization es_ES
dc.subject Neural Networks es_ES
dc.subject.classification LENGUAJES Y SISTEMAS INFORMATICOS es_ES
dc.subject.other Grado en Ingeniería Informática-Grau en Enginyeria Informàtica es_ES
dc.title Creación de un corpus de artículos de prensa y generación automática de resúmenes es_ES
dc.type Proyecto/Trabajo fin de carrera/grado es_ES
dc.rights.accessRights Abierto es_ES
dc.contributor.affiliation Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació es_ES
dc.contributor.affiliation Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica es_ES
dc.description.bibliographicCitation Alcina Sanchis, F. (2019). Creación de un corpus de artículos de prensa y generación automática de resúmenes. http://hdl.handle.net/10251/128334 es_ES
dc.description.accrualMethod TFGM es_ES
dc.relation.pasarela TFGM\110064 es_ES


Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem