Resumen:
|
[EN] This Master’s thesis attempts to solve the problem of document relation modelling. Normally, documents are classified by tags. However, rare is the case
where document relations are tagged in the database. The study ...[+]
[EN] This Master’s thesis attempts to solve the problem of document relation modelling. Normally, documents are classified by tags. However, rare is the case
where document relations are tagged in the database. The study in this project
attempts to estimate relations among text documents by means of topic modelling techniques, such as term frequency - inverse document frequency, latent
semantic analysis, latent dirichlet allocation and word embeddings. The Master’s thesis presents a study of document similarity and jumps into implementation details over a real use-case at Volvo Cars. We program a graphical user
interface in Python to interact with the system. We present the results with a
comparison of the techniques in the evaluation method, which we base on a
recall score and the rank biased precision metrics over a validation set. The
results are enhanced by exploring clustering techniques with graph theory in
order to discover communities within the documents.
[-]
[CA] Aquesta máster tesis intenta solventar el problema de modelat automàtic de
relacions entre documents. Normalment, els documents son classificats per
etiquetes. No obstant, extrany es el cas en el que les relacions ...[+]
[CA] Aquesta máster tesis intenta solventar el problema de modelat automàtic de
relacions entre documents. Normalment, els documents son classificats per
etiquetes. No obstant, extrany es el cas en el que les relacions son part de la
base de dades. L’estudi darrere d’aquest projecte intenta estimar les relacions
que hi poden haver entre documents de text mitjançant l’ús de tècniques de
modelat per tòpics, com term frequency - inverse document frequency, latent
semantic analysis, latent Dirichlet allocation i word embeddings. La máster
tesis presenta un estudi sobre semblança de documents i passa a detallar la seva
implementació en un cas real a l’empresa d’automòbils Volvo Cars. Es programa una interfície gràfica d’usuari en Python per a que l’usuari interactue
amb el sistema. Ademés, els resultats son mostrats a través d’una comparació
de les técniques elegides en el métode d’evaluació propost, basant-se aquest en
un paràmetre de cobertura i un de precisió basat en el rang sobre un set de validació. Els resultats obtinguts són estesos mitjançant l’exploració de métodes
de clustering amb teoria de grafs i amb l’objectiu de descobrir comunitats de
documents basades en aquestes relacions.
[-]
[ES] Esta máster tesis intenta solucionar el problema de modelado automático de
relaciones entre documentos. Normalmente, los documentos son clasificados
por etiquetas. Sin embargo, raro es el caso donde las relaciones ...[+]
[ES] Esta máster tesis intenta solucionar el problema de modelado automático de
relaciones entre documentos. Normalmente, los documentos son clasificados
por etiquetas. Sin embargo, raro es el caso donde las relaciones entre dichos
documentos son parte de la base de datos. El estudio detrás de este proyecto
intenta estimar las relaciones que pueda haber entre documentos de texto mediante el uso de técnicas de modelado por tópicos, como term frequency -
inverse document frequency, latent semantic analysis, latent Dirichlet allocation y word embeddings. La máster tesis presenta un estudio sobre similitud
de documentos y pasa a detallar su implementación en un caso real en la empresa de automóviles Volvo Cars. Se programa una interfaz gráfica de usuario
en Python para que el usuario interactúe con el sistema. Además, los resultados son presentados a través de una comparación de las técnicas elegidas
en este proyecto en el método de evaluación propuesto, el cuál está basado en
un parámetro de cobertura y uno llamado de precisión basado en el rango sobre un set de validación. Los resultados obtenidos son extendidos mediante la
exploración de métodos de clustering con teoría de grafos con el objetivo de
descubrir comunidades de documentos basados en estas relaciones.
[-]
|