- -

Recuperació d'informació basada en representacions vectorials denses

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Compartir/Enviar a

Citas

Estadísticas

  • Estadisticas de Uso

Recuperació d'informació basada en representacions vectorials denses

Mostrar el registro sencillo del ítem

Ficheros en el ítem

dc.contributor.advisor Sanchís Arnal, Emilio es_ES
dc.contributor.advisor Hurtado Oliver, Lluis Felip es_ES
dc.contributor.author Casamayor Segarra, Andreu es_ES
dc.date.accessioned 2022-09-14T07:47:57Z
dc.date.available 2022-09-14T07:47:57Z
dc.date.created 2022-07-13
dc.date.issued 2022-09-14 es_ES
dc.identifier.uri http://hdl.handle.net/10251/185977
dc.description.abstract [CA] Hui en dia vivim en un món que ens sobrealimenta d’informació, dificultant el procés de trobar el documents, articles, etc. que estàs cercant. Els sistemes de recuperació d’informació (SRI) resolen el problema anterior per mitjà d’algoritmes que retornen una informació precisa i similar a la que estàs cercat. Tanmateix, cada volta hi ha mes informació, necessitant nous models i algoritmes eficients que siguen capaços d’administrar tantes dades i tornar resultats precisos. Aquest problema s’accentua quan parlem d’idiomes minoritaris. En aquest projecte desenvolupem tres models SRI: un model clàssic (Booleà), un model més actual basat en representacions vectorials denses (Word2Vec), i el model més modern (STSB) basat en representacions vectorials denses contextuals, per a un idioma minoritari com és el català. Usant un corpus del grup d’investigació ELIRF-VRAIN (DACSA) i eines com SpaCy, HuggingFace, SentenceTransformer i Whoosh que ens proporcionen models preentrenats per altres grups d’investigació i el model STSB en català que ha sigut creat per nosaltres, hem desenvolupat els tres sistemes presentats en el projecte. Hem obtingut uns resultats satisfactoris segons els objectius marcats. Trobem que el model STSB millora la cerca d’articles, ja que manté la semàntica de la cerca i té en compte el context. En conclusió, observem l’evolució dels SRI en aquest projecte comparant vells models amb els models actuals. es_ES
dc.description.abstract [ES] Hoy en día vivimos en un mundo que nos sobrealimenta de información, dificultando el proceso de encontrar documentos, artículos, etc. que estás buscando. Los sistemas de recuperación de información (SRI) resuelven el problema anterior por medio de algoritmos que devuelven una información precisa y similar a la que estás buscado. Sin embargo, cada vez hay más información, necesitando nuevos modelos y algoritmos eficientes que sean capaces de administrar tantos datos y devolver resultados precisos. Este problema se acentúa cuando hablamos de idiomas minoritarios. En este proyecto desarrollamos tres modelos SRI: un modelo clásico (Booleano), un modelo más actual basado en representaciones vectoriales densas (Word2Vec), y el modelo más moderno (STSB) basado en representaciones vectoriales densas contextuales, para un idioma minoritario como es el Catalán. Usando un corpus del grupo de investigación ELIRF-VRAIN (DACSA) y herramientas como SpaCy, HuggingFace, SentenceTransformer y Whoosh que nos proporcionan modelos preentrenados por otros grupos de investigación y el modelo STSB en Catalán que ha sido creado por nosotros, hemos desarrollado los tres sistemas presentados en el proyecto. Hemos obtenido resultados satisfactorios según los objetivos marcados. Encontramos que el modelo STSB mejora la búsqueda de artículos, puesto que mantiene la semántica de la búsqueda y tiene en cuenta el contexto. En conclusión, observamos la evolución de los SRI en este proyecto comparando viejos modelos con los modelos actuales es_ES
dc.description.abstract [EN] Today we live in a world that overfeeds us with information, making it difficult to find the documents, articles, etc. that you are looking for. Information retrieval systems (IRS) solve the above problem by means of algorithms that return accurate information similar to what you are looking for. However, there is more and more information, requiring new models and efficient algorithms that a re able to m anage so much d ata and return accurate results. This problem is accentuated when we talk about minority languages. In this project we developed three IRS models: a classical model (Boolean), a more current model based on dense vector representations (Word2Vec), and the most modern model (STSB) based on contextual dense vector representations, for a minority language such as Catalan. Using a corpus from the ELIRF-VRAIN research group (DACSA) and tools such as SpaCy, HuggingFace, SentenceTransformer and Whoosh that provide us with models pre-trained by other research groups and the STSB model in Catalan that has been created by us, we have developed the three systems presented in the project. We have obtained satisfactory results according to the objectives set. We found that the STSB model improves the search for articles, since it maintains the semantics of the search and takes into account the context. In conclusion, we observe the evolution of IRS in this project by comparing old models with current models. es_ES
dc.format.extent 168 es_ES
dc.language Catalán es_ES
dc.publisher Universitat Politècnica de València es_ES
dc.rights Reserva de todos los derechos es_ES
dc.subject Sistemes de recuperació d’informació es_ES
dc.subject Representacións vectorials denses es_ES
dc.subject Embeddings no contextuals es_ES
dc.subject Embeddings contextuals es_ES
dc.subject Word2Vec es_ES
dc.subject Sentence to BERT es_ES
dc.subject Information retrieval systems es_ES
dc.subject Dense vector representations es_ES
dc.subject.classification LENGUAJES Y SISTEMAS INFORMATICOS es_ES
dc.subject.other Grado en Ingeniería Informática-Grau en Enginyeria Informàtica es_ES
dc.title Recuperació d'informació basada en representacions vectorials denses es_ES
dc.title.alternative Recuperación de información basada en representaciones vectoriales densas es_ES
dc.title.alternative Information Retrieval based on dense vectors representation es_ES
dc.type Proyecto/Trabajo fin de carrera/grado es_ES
dc.rights.accessRights Abierto es_ES
dc.contributor.affiliation Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació es_ES
dc.contributor.affiliation Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica es_ES
dc.description.bibliographicCitation Casamayor Segarra, A. (2022). Recuperació d'informació basada en representacions vectorials denses. Universitat Politècnica de València. http://hdl.handle.net/10251/185977 es_ES
dc.description.accrualMethod TFGM es_ES
dc.relation.pasarela TFGM\140772 es_ES


Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem