Resumen:
|
[CA] Hui en dia vivim en un món que ens sobrealimenta d’informació, dificultant el procés de trobar el documents, articles, etc. que estàs cercant. Els sistemes de recuperació
d’informació (SRI) resolen el problema anterior ...[+]
[CA] Hui en dia vivim en un món que ens sobrealimenta d’informació, dificultant el procés de trobar el documents, articles, etc. que estàs cercant. Els sistemes de recuperació
d’informació (SRI) resolen el problema anterior per mitjà d’algoritmes que retornen una
informació precisa i similar a la que estàs cercat. Tanmateix, cada volta hi ha mes informació, necessitant nous models i algoritmes eficients que siguen capaços d’administrar
tantes dades i tornar resultats precisos. Aquest problema s’accentua quan parlem d’idiomes minoritaris.
En aquest projecte desenvolupem tres models SRI: un model clàssic (Booleà), un
model més actual basat en representacions vectorials denses (Word2Vec), i el model més
modern (STSB) basat en representacions vectorials denses contextuals, per a un idioma minoritari com és el català. Usant un corpus del grup d’investigació ELIRF-VRAIN
(DACSA) i eines com SpaCy, HuggingFace, SentenceTransformer i Whoosh que ens proporcionen models preentrenats per altres grups d’investigació i el model STSB en català que
ha sigut creat per nosaltres, hem desenvolupat els tres sistemes presentats en el projecte.
Hem obtingut uns resultats satisfactoris segons els objectius marcats. Trobem que el model STSB millora la cerca d’articles, ja que manté la semàntica de la cerca i té en compte
el context. En conclusió, observem l’evolució dels SRI en aquest projecte comparant vells
models amb els models actuals.
[-]
[ES] Hoy en día vivimos en un mundo que nos sobrealimenta de información, dificultando el proceso de encontrar documentos, artículos, etc. que estás buscando. Los sistemas
de recuperación de información (SRI) resuelven ...[+]
[ES] Hoy en día vivimos en un mundo que nos sobrealimenta de información, dificultando el proceso de encontrar documentos, artículos, etc. que estás buscando. Los sistemas
de recuperación de información (SRI) resuelven el problema anterior por medio de algoritmos que devuelven una información precisa y similar a la que estás buscado. Sin
embargo, cada vez hay más información, necesitando nuevos modelos y algoritmos eficientes que sean capaces de administrar tantos datos y devolver resultados precisos. Este
problema se acentúa cuando hablamos de idiomas minoritarios.
En este proyecto desarrollamos tres modelos SRI: un modelo clásico (Booleano), un
modelo más actual basado en representaciones vectoriales densas (Word2Vec), y el modelo más moderno (STSB) basado en representaciones vectoriales densas contextuales, para
un idioma minoritario como es el Catalán. Usando un corpus del grupo de investigación
ELIRF-VRAIN (DACSA) y herramientas como SpaCy, HuggingFace, SentenceTransformer y
Whoosh que nos proporcionan modelos preentrenados por otros grupos de investigación
y el modelo STSB en Catalán que ha sido creado por nosotros, hemos desarrollado los tres
sistemas presentados en el proyecto. Hemos obtenido resultados satisfactorios según los
objetivos marcados. Encontramos que el modelo STSB mejora la búsqueda de artículos,
puesto que mantiene la semántica de la búsqueda y tiene en cuenta el contexto. En conclusión, observamos la evolución de los SRI en este proyecto comparando viejos modelos
con los modelos actuales
[-]
[EN] Today we live in a world that overfeeds us with information, making it difficult to find
the documents, articles, etc. that you are looking for. Information retrieval systems (IRS)
solve the above problem by means ...[+]
[EN] Today we live in a world that overfeeds us with information, making it difficult to find
the documents, articles, etc. that you are looking for. Information retrieval systems (IRS)
solve the above problem by means of algorithms that return accurate information similar
to what you are looking for. However, there is more and more information, requiring
new models and efficient algorithms that a re able to m anage so much d ata and return
accurate results. This problem is accentuated when we talk about minority languages.
In this project we developed three IRS models: a classical model (Boolean), a more
current model based on dense vector representations (Word2Vec), and the most modern
model (STSB) based on contextual dense vector representations, for a minority language
such as Catalan. Using a corpus from the ELIRF-VRAIN research group (DACSA) and
tools such as SpaCy, HuggingFace, SentenceTransformer and Whoosh that provide us with
models pre-trained by other research groups and the STSB model in Catalan that has
been created by us, we have developed the three systems presented in the project. We
have obtained satisfactory results according to the objectives set. We found that the STSB
model improves the search for articles, since it maintains the semantics of the search and
takes into account the context. In conclusion, we observe the evolution of IRS in this
project by comparing old models with current models.
[-]
|