Resumen
La mayoría de los métodos para la categorización automática de documentos está
basada en técnicas de aprendizaje supervisado y por consecuencia, tienen el problema
de requerir un gran número de instancias de entrenamiento. Con la finalidad de afrontar
este problema, en esta tesis se propone un nuevo método semi-supervisado para la
categorización de documentos, el cual considera la extracción automática de ejemplos
no etiquetados de la Web y su incorporación al conjunto de entrenamiento. Los
ejemplos no etiquetados que se incorporan al conjunto de entrenamiento son
seleccionados por medio de un método basado en aprendizaje automático. Este modelo
incremental permite la selección sólo de los mejores ejemplos no etiquetados en cada
iteración. Sin embargo, en algunos dominios esta técnica no permite mejorar la
precisión de clasificación, principalmente cuando los datos etiquetados son dispersos.
Esto es, entre más relación tengan los ejemplos etiquetados con la categoría a la que
pertenecen, mejores resultados se obtendrán con este método. Éste es independiente del
dominio y del lenguaje, su funcionamiento resulta más adecuado en aquellos escenarios
en los cuales no se cuenta con suficientes instancias de entrenamiento manualmente
etiquetadas. La evaluación experimental del método se llevó a cabo con tres
experimentos de categorización de documentos tanto temática (utilizando colecciones
con diferentes características de documentos, como son: muy pocos ejemplos de
entrenamiento y un alto grado de traslape) así como no temática (tarea de atribución de
autoría). Un cuarto experimento se llevó a cabo para la tarea de la desambiguación del
sentido de las palabras. Los resultados obtenidos en cada uno de estos experimentos nos
permiten ver la efectividad de incorporar datos no etiquetados descargados de la Web al
conjunto de entrenamiento.