Resum   La majoria dels mètodes per a la categorització automàtica de documents està basat en tècniques d'aprenentatge supervisat i per conseqüentment, tenen el problema de requerir un gran nombre d'instàncies d’entrenament. Amb la finalitat d’afrontar aquest problema, en aquesta tesi es proposa un nou mètode semi-supervisat per a la categorització de documents, el qual considera l'extracció automàtica d'exemples no etiquetats de la Web i la seua incorporació al conjunt d'entrenament. Els exemples no etiquetats que s'incorporen al conjunt d'entrenament són seleccionats mitjançant un mètode basat en aprenentatge automàtic. Aquest model incremental permet la selecció només dels millors exemples no etiquetats en cada iteració. No obstant això, en alguns dominis aquesta tècnica no permet millorar la precisió de classificació, principalment quan les dades etiquetades són disperses. Açò és, quanta major relació tinguen els exemples etiquetats amb la categoria a què pertanyen, millors resultats s'obtindran amb aquest mètode. Aquest mètode és independent del domini i de l'idioma, el seu funcionament resulta més adequat en aquells escenaris en els quals no es disposa de suficients instàncies d'entrenament manualment etiquetades. L'avaluació experimental del mètode es va dur a terme amb tres experiments de categorització de documents, categorització tant temàtica (utilitzant col·leccions amb diferents característiques de documents, com són: molt pocs exemples d'entrenament i un alt grau de solapament) com no temàtica (tasca d'atribució d'autoria). També es va dur a terme un quart experiment per a la tasca de la desambiguació semàntica. Els resultats obtinguts en cada un d'aquests experiments ens permeten veure la efectivitat d'incorporar dades no etiquetades descarregades de la Web al conjunt de entrenament.