- -

Desarrollo de un sistema de clasificación de temas y resumen automático en el ámbito de la información periodística

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Compartir/Enviar a

Citas

Estadísticas

  • Estadisticas de Uso

Desarrollo de un sistema de clasificación de temas y resumen automático en el ámbito de la información periodística

Mostrar el registro sencillo del ítem

Ficheros en el ítem

dc.contributor.advisor Sanchís Arnal, Emilio es_ES
dc.contributor.advisor García Granada, Fernando es_ES
dc.contributor.author Canora Alonso, Marco es_ES
dc.date.accessioned 2020-06-26T07:50:34Z
dc.date.available 2020-06-26T07:50:34Z
dc.date.created 2018-09-20
dc.date.issued 2020-06-26 es_ES
dc.identifier.uri http://hdl.handle.net/10251/147058
dc.description.abstract [ES] Este estudio propone un nuevo modelo de resumen de documentos basado en técnicas no supervisadas. Concretamente, uno basado en el etiquetado de palabras utilizando Latent Dirichlet Allocation frente al enfoque clásico basado en Latent Semantic Analysis. Se adecuará la aplicación de dichas técnicas a documentos compuestos por diferentes bloques de contenido de diversa duración. También, se estudia la segmentación en bloques temáticos, que se hará considerando las distancias entre párrafos, representados por vectores continuos obtenidos a través de las palabras que los forman. A continuación, cada uno de los segmentos será resumido. En los experimentos se han empleado tanto programas televisivos como artículos de periódico. es_ES
dc.description.abstract [EN] In this paper we present an approach to document summarization based on unsupervised techniques. We study the adequacy of these techniques to the problem of documents where many topics of different duration are present, in our case the transcriptions of TV programs. The paper compares classical Latent Semantic Analysis approach with a new proposal based on Latent Dirichlet Allocation labeling of words. It is also studied the application of the summarization process to the different segments obtained in a previous process of topic segmentation. The topic segmentation is performed by considering distances between paragraphs, that are represented by means of continuous vectors obtained from of the words contained in them. Experiments have been performed over some articles of newspapers, and over some TV programs of political and miscellaneous news. es_ES
dc.description.abstract [CA] Aquest estudi proposa un nou model de resum de documents basat en tècniques no supervisades. Concretament basat en l'etiquetatge de paraules Latent Dirichlet Allocation front al mètode clàssic Latent Semantic Analysis. S'adequarà l'aplicació d'aquestes tècniques a documents els quals contenen diversos blocs de continguts de diversa duració. A més, s'estudia la segmentació en blocs temàtics, la qual cosa es farà considerant les distàncies entre paràgrafs, representats per vectors continus obtinguts gràcies a les paraules que els formen. A continuació, cadascun dels segments serà resumit. Als experiments s'han fet servir tant programes televisius com articles de periòdic. es_ES
dc.format.extent 81 es_ES
dc.language Español es_ES
dc.publisher Universitat Politècnica de València es_ES
dc.rights Reserva de todos los derechos es_ES
dc.subject Resumen de documentos es_ES
dc.subject Latent semantic analysis es_ES
dc.subject Latent dirichlet allocation es_ES
dc.subject Segmentación por tema es_ES
dc.subject Document summarization es_ES
dc.subject Topic segmentation es_ES
dc.subject.classification LENGUAJES Y SISTEMAS INFORMATICOS es_ES
dc.subject.other Grado en Ingeniería Informática-Grau en Enginyeria Informàtica es_ES
dc.title Desarrollo de un sistema de clasificación de temas y resumen automático en el ámbito de la información periodística es_ES
dc.type Proyecto/Trabajo fin de carrera/grado es_ES
dc.rights.accessRights Abierto es_ES
dc.contributor.affiliation Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació es_ES
dc.contributor.affiliation Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica es_ES
dc.description.bibliographicCitation Canora Alonso, M. (2018). Desarrollo de un sistema de clasificación de temas y resumen automático en el ámbito de la información periodística. http://hdl.handle.net/10251/147058 es_ES
dc.description.accrualMethod TFGM es_ES
dc.relation.pasarela TFGM\77104 es_ES


Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem