RESUM

Es desenvolupa i implementa un Sistema d’Indexació i Segmentació Automàtica per a textos llargs en Espanyol, contribuint a la seua categorització textual i indexació automàtica.

Per al seu desenvolupament, s’estudien i perfeccionen  els mètodes quantitatius i lleis clàssiques en Recuperació d’informació, com són els models relatius al procés de repetició de paraules (Zipf, 1949), (Mandelbrot, 1953) i al procés de creació de vocabulari (Heaps, 1978). Es realitza una crítica de les circumstàncies d’aplicació dels models i s’estudia l’estabilitat dels paràmetres de manera experimental mitjançant recomptes en textos i els seus fragments. S’estableixen  recomanacions a priori per als valors dels seus paràmetres, depenent de les circumstàncies d’aplicació i del tipus de text analitzat. S’observa el comportament dels paràmetres de les fórmules per a entreveure una relació directa amb la tipologia de text analitzat. Es proposa un nou model (Log-%) per a la visualització de la distribució de freqüències de les paraules d’un text.

L’objectiu final és detectar els canvis temàtics que es produeixen en un document, per a establir la seua estructura  temàtica i obtindre  la indexació automàtica de cadascuna de les seues parts. D’aquesta manera s’obté la categorització del text o document utilitzant l’enumeració de les seues parts temàtiques a mode de nivells o estructura arbòria.

Una vegada constituïdes les parts temàtiques del text en els seus nivells corresponents amb els termes indizats, estos s’agrupen en blocs distribuïts jeràrquicament segons es desglossa el document en qüestió. El bloc inicial descriu el contingut global de tot el document amb una quantitat inicial de paraules o descriptors. Seguidament aquest bloc inicial es subdivideix en diversos blocs, els quals corresponen a distintes parts del document total, cadascun d’aquests també conté una sèrie de paraules que descriuen  el contingut i així successivament fins a poder formar les divisions  necessàries i arribar a descriure cada paràgraf del document en qüestió.

Els termes que finalment formaran part del mapa temàtic o Sistema d’Indexació i Segmentació Automàtica seran una combinació de paraules obtingudes del text i coocurrències de paraules que superen els llindars adequats. Els termes queden col·locats automàticament en cada nivell de Segmentació utilitzant similituds entre ells i la representació Log-% anteriorment citat.

Esta Tesi doctoral no solament consta d’una base de dades conceptual teòrica sobre indexació i segmentació automàtica, sinó en la implementació i crítica de les aplicacions informàtiques que proporcionen la base per a les experimentacions d’esta investigació.