[ES] Este estudio propone un nuevo modelo de resumen de documentos basado en técnicas no supervisadas. Concretamente, uno basado en el etiquetado de palabras utilizando Latent Dirichlet Allocation frente al enfoque clásico ...[+]
[ES] Este estudio propone un nuevo modelo de resumen de documentos basado en técnicas no supervisadas. Concretamente, uno basado en el etiquetado de palabras utilizando Latent Dirichlet Allocation frente al enfoque clásico basado en Latent Semantic Analysis. Se adecuará la aplicación de dichas técnicas a documentos compuestos por diferentes bloques de contenido de diversa duración. También, se estudia la segmentación en bloques temáticos, que se hará considerando las distancias entre párrafos, representados por vectores continuos obtenidos a través de las palabras que los forman. A continuación, cada uno de los segmentos será resumido. En los experimentos se han empleado tanto programas televisivos como artículos de periódico.
[-]
[EN] In this paper we present an approach to document summarization based on unsupervised techniques. We study the adequacy of these techniques to the problem of documents where many topics of different duration are present, ...[+]
[EN] In this paper we present an approach to document summarization based on unsupervised techniques. We study the adequacy of these techniques to the problem of documents where many topics of different duration are present, in our case the transcriptions of TV programs. The paper compares classical Latent Semantic Analysis approach with a new proposal based on Latent Dirichlet Allocation labeling of words. It is also studied the application of the summarization process to the different segments obtained in a previous process of topic segmentation. The topic segmentation is performed by considering distances between paragraphs, that are represented by means of continuous vectors obtained from of the words contained in them. Experiments have been performed over some articles of newspapers, and over some TV programs of political and miscellaneous news.
[-]
[CA] Aquest estudi proposa un nou model de resum de documents basat en tècniques no
supervisades. Concretament basat en l'etiquetatge de paraules Latent Dirichlet Allocation front
al mètode clàssic Latent Semantic Analysis. ...[+]
[CA] Aquest estudi proposa un nou model de resum de documents basat en tècniques no
supervisades. Concretament basat en l'etiquetatge de paraules Latent Dirichlet Allocation front
al mètode clàssic Latent Semantic Analysis. S'adequarà l'aplicació d'aquestes tècniques a
documents els quals contenen diversos blocs de continguts de diversa duració. A més, s'estudia
la segmentació en blocs temàtics, la qual cosa es farà considerant les distàncies entre paràgrafs,
representats per vectors continus obtinguts gràcies a les paraules que els formen. A continuació,
cadascun dels segments serà resumit. Als experiments s'han fet servir tant programes televisius
com articles de periòdic.
[-]
|