Mostrar el registro sencillo del ítem
dc.contributor.advisor | Sanchís Arnal, Emilio | es_ES |
dc.contributor.advisor | García Granada, Fernando | es_ES |
dc.contributor.author | Canora Alonso, Marco | es_ES |
dc.date.accessioned | 2020-06-26T07:50:34Z | |
dc.date.available | 2020-06-26T07:50:34Z | |
dc.date.created | 2018-09-20 | |
dc.date.issued | 2020-06-26 | es_ES |
dc.identifier.uri | http://hdl.handle.net/10251/147058 | |
dc.description.abstract | [ES] Este estudio propone un nuevo modelo de resumen de documentos basado en técnicas no supervisadas. Concretamente, uno basado en el etiquetado de palabras utilizando Latent Dirichlet Allocation frente al enfoque clásico basado en Latent Semantic Analysis. Se adecuará la aplicación de dichas técnicas a documentos compuestos por diferentes bloques de contenido de diversa duración. También, se estudia la segmentación en bloques temáticos, que se hará considerando las distancias entre párrafos, representados por vectores continuos obtenidos a través de las palabras que los forman. A continuación, cada uno de los segmentos será resumido. En los experimentos se han empleado tanto programas televisivos como artículos de periódico. | es_ES |
dc.description.abstract | [EN] In this paper we present an approach to document summarization based on unsupervised techniques. We study the adequacy of these techniques to the problem of documents where many topics of different duration are present, in our case the transcriptions of TV programs. The paper compares classical Latent Semantic Analysis approach with a new proposal based on Latent Dirichlet Allocation labeling of words. It is also studied the application of the summarization process to the different segments obtained in a previous process of topic segmentation. The topic segmentation is performed by considering distances between paragraphs, that are represented by means of continuous vectors obtained from of the words contained in them. Experiments have been performed over some articles of newspapers, and over some TV programs of political and miscellaneous news. | es_ES |
dc.description.abstract | [CA] Aquest estudi proposa un nou model de resum de documents basat en tècniques no supervisades. Concretament basat en l'etiquetatge de paraules Latent Dirichlet Allocation front al mètode clàssic Latent Semantic Analysis. S'adequarà l'aplicació d'aquestes tècniques a documents els quals contenen diversos blocs de continguts de diversa duració. A més, s'estudia la segmentació en blocs temàtics, la qual cosa es farà considerant les distàncies entre paràgrafs, representats per vectors continus obtinguts gràcies a les paraules que els formen. A continuació, cadascun dels segments serà resumit. Als experiments s'han fet servir tant programes televisius com articles de periòdic. | es_ES |
dc.format.extent | 81 | es_ES |
dc.language | Español | es_ES |
dc.publisher | Universitat Politècnica de València | es_ES |
dc.rights | Reserva de todos los derechos | es_ES |
dc.subject | Resumen de documentos | es_ES |
dc.subject | Latent semantic analysis | es_ES |
dc.subject | Latent dirichlet allocation | es_ES |
dc.subject | Segmentación por tema | es_ES |
dc.subject | Document summarization | es_ES |
dc.subject | Topic segmentation | es_ES |
dc.subject.classification | LENGUAJES Y SISTEMAS INFORMATICOS | es_ES |
dc.subject.other | Grado en Ingeniería Informática-Grau en Enginyeria Informàtica | es_ES |
dc.title | Desarrollo de un sistema de clasificación de temas y resumen automático en el ámbito de la información periodística | es_ES |
dc.type | Proyecto/Trabajo fin de carrera/grado | es_ES |
dc.rights.accessRights | Abierto | es_ES |
dc.contributor.affiliation | Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació | es_ES |
dc.contributor.affiliation | Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica | es_ES |
dc.description.bibliographicCitation | Canora Alonso, M. (2018). Desarrollo de un sistema de clasificación de temas y resumen automático en el ámbito de la información periodística. http://hdl.handle.net/10251/147058 | es_ES |
dc.description.accrualMethod | TFGM | es_ES |
dc.relation.pasarela | TFGM\77104 | es_ES |