Resum
 
La majoria dels mètodes per a la categorització automàtica de documents està basat en
tècniques d'aprenentatge supervisat i per conseqüentment, tenen el problema de requerir
un gran nombre d'instàncies d’entrenament. Amb la finalitat d’afrontar aquest problema,
en aquesta tesi es proposa un nou mètode semi-supervisat per a la categorització de
documents, el qual considera l'extracció automàtica d'exemples no etiquetats de la Web
i la seua incorporació al conjunt d'entrenament. Els exemples no etiquetats que
s'incorporen al conjunt d'entrenament són seleccionats mitjançant un mètode basat en
aprenentatge automàtic. Aquest model incremental permet la selecció només dels
millors exemples no etiquetats en cada iteració. No obstant això, en alguns dominis
aquesta tècnica no permet millorar la precisió de classificació, principalment quan les
dades etiquetades són disperses. Açò és, quanta major relació tinguen els exemples
etiquetats amb la categoria a què pertanyen, millors resultats s'obtindran amb aquest
mètode. Aquest mètode és independent del domini i de l'idioma, el seu funcionament
resulta més adequat en aquells escenaris en els quals no es disposa de suficients
instàncies d'entrenament manualment etiquetades. L'avaluació experimental del mètode
es va dur a terme amb tres experiments de categorització de documents, categorització
tant temàtica (utilitzant col·leccions amb diferents característiques de documents, com
són: molt pocs exemples d'entrenament i un alt grau de solapament) com no temàtica
(tasca d'atribució d'autoria). També es va dur a terme un quart experiment per a la tasca
de la desambiguació semàntica. Els resultats obtinguts en cada un d'aquests experiments
ens permeten veure la efectivitat d'incorporar dades no etiquetades descarregades de la
Web al conjunt de entrenament.