- -

Categorización semi-supervisada de Documentos usando la Web como corpus

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Compartir/Enviar a

Citas

Estadísticas

  • Estadisticas de Uso

Categorización semi-supervisada de Documentos usando la Web como corpus

Mostrar el registro sencillo del ítem

Ficheros en el ítem

dc.contributor.advisor ROSSO -, PAOLO es_ES
dc.contributor.advisor Montes Gomez, Manuel es_ES
dc.contributor.author Guzmán Cabrera, Rafael es_ES
dc.date.accessioned 2009-12-04T10:00:28Z
dc.date.available 2009-12-04T10:00:28Z
dc.date.created 2009-11-24T09:00:00Z es_ES
dc.date.issued 2009-12-04T10:00:25Z es_ES
dc.identifier.uri http://hdl.handle.net/10251/6562
dc.description.abstract La mayoría de los métodos para la categorización automática de documentos está basada en técnicas de aprendizaje supervisado y por consecuencia, tienen el problema de requerir un gran número de instancias de entrenamiento. Con la finalidad de afrontar este problema, en esta tesis se propone un nuevo método semi-supervisado para la categorización de documentos, el cual considera la extracción automática de ejemplos no etiquetados de la Web y su incorporación al conjunto de entrenamiento. Los ejemplos no etiquetados que se incorporan al conjunto de entrenamiento son seleccionados por medio de un método basado en aprendizaje automático. Este modelo incremental permite la selección sólo de los mejores ejemplos no etiquetados en cada iteración. Sin embargo, en algunos dominios esta técnica no permite mejorar la precisión de clasificación, principalmente cuando los datos etiquetados son dispersos. Esto es, entre más relación tengan los ejemplos etiquetados con la categoría a la que pertenecen, mejores resultados se obtendrán con este método. Éste es independiente del dominio y del lenguaje, su funcionamiento resulta más adecuado en aquellos escenarios en los cuales no se cuenta con suficientes instancias de entrenamiento manualmente etiquetadas. La evaluación experimental del método se llevó a cabo con tres experimentos de categorización de documentos tanto temática (utilizando colecciones con diferentes características de documentos, como son: muy pocos ejemplos de entrenamiento y un alto grado de traslape) así como no temática (tarea de atribución de autoría). Un cuarto experimento se llevó a cabo para la tarea de la desambiguación del sentido de las palabras. Los resultados obtenidos en cada uno de estos experimentos nos permiten ver la efectividad de incorporar datos no etiquetados descargados de la Web al conjunto de entrenamiento. es_ES
dc.language Español es_ES
dc.publisher Universitat Politècnica de València es_ES
dc.rights Reserva de todos los derechos es_ES
dc.source Riunet
dc.subject Categorización es_ES
dc.subject Semi-supervisado es_ES
dc.subject Web es_ES
dc.subject Corpus es_ES
dc.title Categorización semi-supervisada de Documentos usando la Web como corpus
dc.type Tesis doctoral es_ES
dc.identifier.doi 10.4995/Thesis/10251/6562 es_ES
dc.rights.accessRights Abierto es_ES
dc.contributor.affiliation Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació es_ES
dc.description.bibliographicCitation Guzmán Cabrera, R. (2009). Categorización semi-supervisada de Documentos usando la Web como corpus [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/6562 es_ES
dc.description.accrualMethod Palancia es_ES
dc.type.version info:eu-repo/semantics/acceptedVersion es_ES
dc.relation.tesis 3181 es_ES


Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem