Resumen

En este trabajo de tesis doctoral se investiga el problema del agrupamiento de conjuntos especiales de documentos llamados textos cortos de dominios restringidos.

Para llevar a cabo esta tarea, se han analizados diversos corpora y métodos de agrupamiento. Mas aún, se han introducido algunas medidas de evaluación de corpus, técnicas de selección de términos y medidas para la validez de agrupamiento con la finalidad de estudiar los siguientes problemas:
- Determinar la relativa dificultad de un corpus para ser agrupado y estudiar algunas de sus características como longitud de los textos, amplitud del dominio, estilometría, desequilibrio de clases y estructura.
- Contribuir en el estado del arte sobre el agrupamiento de corpora compuesto de textos cortos de dominios restringidos

El trabajo de investigación que se ha llevado a cabo se encuentra parcialmente enfocado en el agrupamiento de textos cortos. Este tema se considera relevante dado el modo actual y futuro en que las personas tienden a usar un "lenguaje reducido" constituidos por textos cortos (por ejemplo, blogs, snippets, noticias y generación de mensajes de textos como el correo electrónico y el chat).

Adicionalmente, se estudia la amplitud del dominio de corpora. En este sentido, un corpus puede ser considerado como restringido o amplio si el grado de traslape de vocabulario es alto o bajo, respectivamente. En la tarea de categorización, es bastante complejo lidiar con corpora de dominio restringido tales como artículos científicos, reportes técnicos, patentes, etc.

El objetivo principal de este trabajo consiste en estudiar las posibles estrategias para tratar con los siguientes dos problemas:
a) las bajas frecuencias de los términos del vocabulario en textos cortos, y
b) el alto traslape de vocabulario asociado a dominios restringidos.

Si bien, cada uno de los problemas anteriores es un reto suficientemente alto, cuando se trata con textos cortos de dominios restringidos, la complejidad del problema se incrementa significativamente.

El agrupamiento de resúmenes de artículos científicos es aún mas difícil que el agrupamiento de textos cortos de dominios restringidos. La razón es que los textos que pertenecen a artículos científicos a menudo usan secuencias de palabras tales como "en este artículo se presenta", "el objetivo principal es", "los resultados obtenidos", etc., lo cual obviamente incrementa el grado de similitud entre diferentes conjuntos de textos cortos. De esta manera, la correcta selección de términos cuando se agrupan textos es muy importante debido a que los resultados pueden variar significativamente.

El propósito de estudiar resúmenes de artículos científicos no está motivado de manera exclusiva por la alta complejidad de esta tarea, sino también porque en la mayoría de las bibliotecas digitales y otros repositorios (basados en el web) de información científica y técnica proporcionan acceso gratuito únicamente a los resúmenes y no a los textos completos.

Debido a la naturaleza dinámica de la investigación, nuevos intereses pueden surgir en una cierta área y nuevos sub-temas necesitan ser descubiertos a través de técnicas de agrupamiento con la finalidad de introducirlos posteriormente como nuevas categorías. Por lo tanto, el agrupamiento de resúmenes científicos viene a ser una necesidad real.

En esta tesis, se investiga el tratamiento de colecciones de textos cortos de dominios restringidos siguiendo tres ejes: evaluación, agrupamiento y validación.

Las contribuciones mayores de este trabajo doctoral son las siguientes:
- El estudio y la introducción de medidas de evaluación para el análisis de las siguientes características de un corpus: longitud de los textos, amplitud de dominio, desequilibrio de clases, estilometría y estructura.
- El desarrollo del sistema WaCOS (Watermarking Corpora On-line System) para la evaluación de características de corpus.
- Una nueva metodología no supervisada (que no hace uso de recursos de conocimiento externos) para tratar con corpora constituido de textos cortos de dominios restringidos. Esta metodología sugiere aplicar primero auto-expansión de términos y posteriormente una reducción de vocabulario mediante selección de términos.

Se analizan diferentes características de corpus como una evidencia de la relativa dificultad de un corpus dado con respecto a ciertos algoritmos de agrupamiento. En particular, se estudia la longitud de los textos, amplitud de dominio, desequilibrio de clases, estilometría y estructura.

Se introducen algunas medidas supervisadas y no supervisadas para evaluar las características mencionadas anteriormente. Las medidas supervisadas se usan tanto para evaluar dichas características como para evaluar el gold estándar proporcionado por los expertos. Esto último se considera de gran relevancia. Por otro lado, las medidas no supervisadas evalúan las colecciones de documentos de manera directa (es decir, sin ningún gold estándar) y por lo tanto, pueden ser usadas con otros propósitos, por ejemplo, para ajustar parámetros de algoritmos de agrupamiento (durante su ejecución) con la finalidad de mejorar los resultados.

Las medidas de evaluación fueron integradas en un sistema gratuito y totalmente funcional basado en el web que permite a lingüistas puros y lingüistas computacionales evaluar fácilmente la calidad de corpora con respecto a las características antes mencionadas.

Los experimentos llevados a cabo confirman que el agrupamiento de textos cortos de dominios restringidos es una tarea difícil. Sin embargo, las contribuciones de este trabajo de investigación son evidencia de que es posible lidiar con este problema y además obtener mejoras en los resultados con respecto a aquellos obtenidos con técnicas y métodos clásicos.