Resum En aquest treball de tesi doctoral s'investiga el problema de l'agrupament de conjunts especials de documents anomenats textos curts de dominis restringits. Per a dur a terme aquesta tasca, s'han analitzat diversos corpora i mètodes d'agrupament. Més encara, s'han introduït algunes mesures d'avaluació de corpus, tècniques de selecció de termes i mesures per a la validesa de l'agrupament amb la finalitat d'estudiar els problemes següents: - Determinar la relativa dificultat d'un corpus per a ser agrupat i estudiar algunes de les seues característiques com la longitud dels textos, amplitud del domini, estilometria, desequilibri de classes i estructura. - Contribuir a l'estat de l'art sobre l'agrupament de corpora compost de textos curts de dominis restringits El treball d'investigació que s'ha dut a terme es troba parcialment enfocat a l'agrupament de textos curts. Aquest tema es considera rellevant donat el mode actual i futur en què les persones tendixen a usar un "llenguatge reduït" constituït per textos curts (per exemple, blogs, snippets, notícies i generació de missatges de textos com el correu electrònic i el xat). Addicionalment, s'estudia l'amplitud del domini dels corpora. En aquest sentit, un corpus pot ser considerat com restringit o ampli si el grau de solapament del vocabulari és alt o baix, respectivament. En la tasca de categorització, és bastant complex enfrontar-se amb corpora de domini restringit com ara articles científics, reports tècnics, patents, etc. L'objectiu principal d'aquest treball consistix a estudiar les possibles estratègies per a tractar amb els següents dos problemes: a) les baixes freqüències dels termes del vocabulari en textos curts, i b) l'alt solapament del vocabulari associat a dominis restringits. Si bé, cadascun dels problemes anteriors és un repte bastant alt, quan es tracta amb textos curts de dominis restringits, la complexitat del problema s'incrementa significativament. L'agrupament de resums d'articles científics és encara mes difícil que l'agrupament de textos curts de dominis restringits. La raó és que els textos que pertanyen a articles científics sovint usen seqüències de paraules com ara "en aquest article es presenta", "l'objectiu principal és", "els resultats obtinguts", etc., la qual cosa òbviament incrementa el grau de similitud entre diferents conjunts de textos curts. D'aquesta manera, la correcta selecció de termes quan s'agrupen textos és molt important pel fet que els resultats poden variar significativament. El propòsit d'estudiar resums d'articles científics no està motivat de manera exclusiva per l'alta complexitat d'aquesta tasca, sinó també perquè en la majoria de les biblioteques digitals i altres repositoris (basats en el web) d'informació científica i tècnica proporcionen accés gratuït únicament als resums i no als textos complets. A causa de la naturalesa dinàmica de la investigació, nous interessos poden sorgir en una certa àrea i nous subtemes necessiten ser descoberts a través de tècniques d'agrupament amb la finalitat d'introduir-los posteriorment com noves categories. Per tant, l'agrupament de resums científics ve a ser una necessitat real. En aquesta tesi, s'investiga el tractament de col·leccions de textos curts de dominis restringits seguint tres eixos: avaluació, agrupament i validació. Les contribucions majors d'aquest treball doctoral són les següents: - L'estudi i la introducció de mesures d'avaluació per a l'anàlisi de les següents característiques d'un corpus: longitud dels textos, amplitud de domini, desequilibri de classes, estilometria i estructura. - El desenrotllament del sistema WaCOS (Watermarking Corpora OnLine System) per a l'avaluació de característiques de corpus. - Una nova metodologia no supervisada (que no fa ús de recursos de coneixement externs) per a tractar amb corpora constituïts de textos curts de dominis restringits. Aquesta metodologia suggerix aplicar primer autoexpansió de termes i posteriorment una reducció del vocabulari per mitjà de selecció de termes. S'analitzen diferents característiques de corpus com una evidència de la relativa dificultat d'un corpus donat respecte a certs algoritmes d'agrupament. En particular, s'estudia la longitud dels textos, amplitud de domini, desequilibri de classes, estilometria i estructura. S'introduïxen algunes mesures supervisades i no supervisades per a avaluar les característiques mencionades anteriorment. Les mesures supervisades s'usen tant per a avaluar dites característiques com per a avaluar el "gold standar" proporcionat pels experts. Açò últim es considera de gran rellevància. D'altra banda, les mesures no supervisades avaluen les col·leccions de documents de manera directa (és a dir, sense cap "gold standar") i per tant, poden ser usades amb altres propòsits, per exemple, per a ajustar paràmetres d'algorismes d'agrupament (durant la seua execució) amb la finalitat de millorar els resultats. Les mesures d'avaluació van ser integrades en un sistema gratuït i totalment funcional basat en el web que permet a lingüistes purs i lingüistes computacionals avaluar fàcilment la qualitat de corpora respecte a les característiques abans mencionades. Els experiments duts a terme confirmen que l'agrupament de textos curts de dominis restringits és una tasca difícil. No obstant això, les contribucions d'aquest treball d'investigació evidencien que és possible enfrontar-se amb aquest problema i a més obtindre millores en els resultats respecte a aquells obtinguts amb tècniques i mètodes clàssics.