La informació és útil si quan es necessita està disponible i es pot fer ús d'ella. La disponibilitat ocorre fàcilment quan la informació està bé estructurada i ordenada, i a més a més, no és molt extensa. Però aquesta situació no és la més comú, cada volta la tendència és més a que la quantitat d'informació oferida cresca de forma desmesurada, que estiga desestructurada i que no presente un ordre clar. L'estructuració u ordenació manual és inviable per raó de les dimensions de la informació a manejar. Per tot això es fa clara l'utilitat, i fins i tot la necessitat, de bons sistemes de recuperació d'informació (SRI). També, altra característica important és que la informació tendeix a presentar-se de forma natural de manera distribuïda, la qual cosa implica la necessitat de SRI que puguen treballar en entorns distribuïts i amb tècniques de paral·lelització. Aquesta tesi tracta tots eixos aspectes desenvolupant i millorant mètodes que permeten obtindre SRI amb millors prestacions, tant en qualitat de recuperació com en eficiència computacional, els quals a més poden treballar des de la perspectiva de sistemes ja distribuïts. El principal objectiu dels SRI serà proporcionar documents rellevants i ometre els considerats irrellevants respecte a una consulta donada. Alguns dels problemes més destacats dels SRI són: la polisèmia i la sinonímia; les paraules relacionades (paraules que juntes tenen un significat i serapades en tenen un altre); la gran quantitat d'informació a manejar; l'heterogeneïtat dels documents; etc. De tots ells, esta tesi es centra en la polisèmia i la sinonímia, les paraules relacionades (indirectament mitjançant la lematització semàntica) i en la gran quantitat d'informació a manejar. El desenvolupament d'un SRI comprén bàsicament quatre fases diferents: el preprocessament, la modelització, l'evaluació i la utilització. El preprocessament que inclou les accions necessàries per a transformar els documents de la col·lecció en una estructura de dades amb la informació rellevant dels documents ha sigut una part important de l'estudi d'aquesta tesi. En aquesta fase ens hem centrant en la reducció de les dades i estructures a manejar, maximitzant la informació continguda. La modelització, ha sigut la fase més analitzada i treballada en aquesta tesi, és l'encarregada de definir l'estructura i comportament del SRI. Només s'ha treballat el model vectorial, deixant a banda altres models com el probabilístic i el lògic. En la fase d''evaluació que s'encarrega de determinar la qualitat del SRI, s'han utilitzat mètodes ja definits, ampliament usats i corroborats, basats directa o indirectament en la precisió (precision) i la cobertura (recall). A la fi, aquesta tesi no es fica en la fase d'utilització. Degut a la gran quantitat de mètodes de clustering que existeixen en multitud d'àmbits i per a una extensa varietat de sistemes d'informació, s'ha buscat treballar partint de dos dels principals i més importants mètodes de la lliteratura: K-Means i DBSCAN. I, aleshores, millorar la seua qualitat, intentant no perdre la seua funcionalitat ni les seues prestacions computacionals, i fins i tot millorar-les. Concretament s'ha desenvolupat un mètode menys sensible que el K-Means a la inicialització dels seus paràmetres, a-Bisecting Spherical K-Means. També s'ha desenvolupat el mètode VDBSCAN que obté els mateixos clusters que el DBSCAN però en quasi la meitat del temps i suprimint l'elecció aleatòria dels paràmetres de inicialització quan no es té informació suficient respecte al SRI (fixant a un valor constant un dels seus paràmetres i l'altre obtenint-lo heurísticament, mètode tambè desenvolupat en aquesta tesi). Aquests mètodes s'han creat amb l'objectiu de treballar en entorns distribuïts i per això una part important de la tesi es centra en aspectes de paral·lelització. Després de l'estudi experimental de la qualitat de recuperació d'informació i de les prestacions computacionals s'ha conclós que el métode VDBSCAN obté una millor qualitat respecte al métode a-Bisecting Spherical K-Means. Encara que el VDBSCAN té una modelització clarament més costosa, respon millor a la paral·lelitzación. El temps de resposta del a-Bisecting Spherical K-Means sempre és una mica més ràpid que el del VDBSCAN. Així i tot el VDBSCAN obté millors valores de speed up i sensiblement millors resultats d'eficiència. En conclusió, el VDBSCAN serà elegit sempre que es considere primordial la qualitat de recuperació. Mentres que el a-Bisecting Spherical K-Means, quan la fase de modelització es repetisca moltes voltes, pel seu menor cost computacional.