Modelado de temas en documentos de texto: análisis comparativo de LSA, PLSA y LDA

Jiang, Linxi

RiuNet repositorio UPV
:
Docencia
:
Trabajos académicos
:
Servicio de alumnado - Trabajos académicos
:
Ver ítem

Identificarse

Buscar en RiuNet

Listar

Todo RiuNet
Esta colección

Mi cuenta

Acceder

Estadísticas

Ver Estadísticas de uso

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Modelado de temas en documentos de texto: análisis comparativo de LSA, PLSA y LDA

Mostrar el registro sencillo del ítem

Ficheros en el ítem

Nombre: Jiang - Modelado ...

Tamaño: 1.670Mb

Formato: PDF

Abrir

dc.contributor.advisor	Periñán Pascual, José Carlos	es_ES
dc.contributor.author	Jiang, Linxi	es_ES
dc.date.accessioned	2023-09-25T09:24:39Z
dc.date.available	2023-09-25T09:24:39Z
dc.date.created	2023-07-28
dc.date.issued	2023-09-25	es_ES
dc.identifier.uri	http://hdl.handle.net/10251/197043
dc.description.abstract	[ES] Este trabajo se centra en los modelos teóricos clásicos más representativos que han marcado el desarrollo del modelado de temas en la minería textual, razón por la cual se ha puesto el foco en el análisis de semántica latente, el análisis probabilístico de semántica latente y la asignación latente de Dirichlet. Siendo una rama de investigación en el ámbito del procesamiento de lenguaje natural, el modelado de temas proporciona una solución automatizada para tareas como la categorización de textos y la elaboración de resúmenes, captando el interés de los investigadores por su capacidad de descubrir estructuras semánticas latentes en los documentos. En este contexto, el estudio aborda principalmente un análisis cuantitativo y cualitativo en dos modelos probabilísticos, i.e. análisis probabilístico de semántica latente y asignación latente de Dirichlet. El objetivo es evaluar y comparar la efectividad de ambos modelos cuando se aplican a corpus de distintos tamaños. Para ello, se crearon tres corpus a partir de títulos de noticias en Wall Street Journal y Nature. Basándonos en los datos obtenidos, concluimos que PLSA proporciona mejores resultados que LDA en la clasificación de los textos según los temas latentes. Asimismo, se ha notado una mejora considerable en el rendimiento de PLSA a medida que aumenta el tamaño del corpus. Este estudio también analiza algunas cuestiones críticas que pueden afectar a la efectividad de estos modelos.	es_ES
dc.description.abstract	[EN] This research focuses on the most representative classical theoretical models that have marked the development of topic modeling in text mining, which are latent semantic analysis, probabilistic latent semantic analysis and latent Dirichlet assignment. As a branch of research in the field of natural language processing, topic modeling provides an automated solution for text mining tasks such as text categorization and summarization. Thus, it has captured researchers¿ interest for the ability in discovering latent semantic structures in documents. In this context, the research mainly addresses a quantitative and qualitative analysis in two probabilistic models, i.e. probabilistic latent semantic analysis and latent Dirichlet assignment. The objective is to evaluate and compare the effectiveness of both models when applied to corpora of different sizes. For this purpose, three corpora were created from subheadings of articles of Wall Street Journal and Nature. Based on the results, we concluded that PLSA performed better than LDA in classifying texts according to the latent topics. Indeed, as the corpus size grew, there was a clear improvement in the performance of PLSA. This research also discusses some critical factors that may affect the effectiveness of these models.	es_ES
dc.format.extent	98	es_ES
dc.language	Español	es_ES
dc.publisher	Universitat Politècnica de València	es_ES
dc.rights	Reconocimiento - No comercial - Sin obra derivada (by-nc-nd)	es_ES
dc.subject	Latent Semantic Analysis (LSA)	es_ES
dc.subject	Probabilistic Latent Semantic Analysis (pLSA)	es_ES
dc.subject	Análisis Semántico Probabilístico Latente (pLSA)	es_ES
dc.subject	Latent Dirichlet Allocation (LDA)	es_ES
dc.subject	Asignación Latente de Dirichlet (ALD)	es_ES
dc.subject	Minería de textos	es_ES
dc.subject	Análisis Semántico Latente (LSA)	es_ES
dc.subject	Modelado de temas	es_ES
dc.subject	Topic modelling	es_ES
dc.subject	Text mining	es_ES
dc.subject.classification	FILOLOGIA INGLESA	es_ES
dc.subject.other	Máster Universitario en Lenguas y Tecnología-Màster Universitari en Llengües i Tecnologia	es_ES
dc.title	Modelado de temas en documentos de texto: análisis comparativo de LSA, PLSA y LDA	es_ES
dc.title.alternative	Topic modelling in text documents: Comparative analysis of LSA, PLSA and LDA	es_ES
dc.title.alternative	Modelatge de temes en documents de text: anàlisi comparativa de LSA, PLSA i LDA	es_ES
dc.type	Tesis de máster	es_ES
dc.rights.accessRights	Abierto	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Departamento de Lingüística Aplicada - Departament de Lingüística Aplicada	es_ES
dc.description.bibliographicCitation	Jiang, L. (2023). Modelado de temas en documentos de texto: análisis comparativo de LSA, PLSA y LDA. Universitat Politècnica de València. http://hdl.handle.net/10251/197043	es_ES
dc.description.accrualMethod	TFGM	es_ES
dc.relation.pasarela	TFGM\158846	es_ES

Este ítem aparece en la(s) siguiente(s) colección(ones)

Servicio de alumnado - Trabajos académicos [7051]

Mostrar el registro sencillo del ítem

Modelado de temas en documentos de texto: análisis comparativo de LSA, PLSA y LDA

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Buscar en RiuNet

Listar

Todo RiuNet

Esta colección

Mi cuenta

Estadísticas

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Modelado de temas en documentos de texto: análisis comparativo de LSA, PLSA y LDA

Ficheros en el ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)

Ítems relacionados