dc.contributor.advisor	ROSSO -, PAOLO	es_ES
dc.contributor.advisor	Montes Gomez, Manuel	es_ES
dc.contributor.author	Guzmán Cabrera, Rafael	es_ES
dc.date.accessioned	2009-12-04T10:00:28Z
dc.date.available	2009-12-04T10:00:28Z
dc.date.created	2009-11-24T09:00:00Z	es_ES
dc.date.issued	2009-12-04T10:00:25Z	es_ES
dc.identifier.uri	http://hdl.handle.net/10251/6562
dc.description.abstract	La mayoría de los métodos para la categorización automática de documentos está basada en técnicas de aprendizaje supervisado y por consecuencia, tienen el problema de requerir un gran número de instancias de entrenamiento. Con la finalidad de afrontar este problema, en esta tesis se propone un nuevo método semi-supervisado para la categorización de documentos, el cual considera la extracción automática de ejemplos no etiquetados de la Web y su incorporación al conjunto de entrenamiento. Los ejemplos no etiquetados que se incorporan al conjunto de entrenamiento son seleccionados por medio de un método basado en aprendizaje automático. Este modelo incremental permite la selección sólo de los mejores ejemplos no etiquetados en cada iteración. Sin embargo, en algunos dominios esta técnica no permite mejorar la precisión de clasificación, principalmente cuando los datos etiquetados son dispersos. Esto es, entre más relación tengan los ejemplos etiquetados con la categoría a la que pertenecen, mejores resultados se obtendrán con este método. Éste es independiente del dominio y del lenguaje, su funcionamiento resulta más adecuado en aquellos escenarios en los cuales no se cuenta con suficientes instancias de entrenamiento manualmente etiquetadas. La evaluación experimental del método se llevó a cabo con tres experimentos de categorización de documentos tanto temática (utilizando colecciones con diferentes características de documentos, como son: muy pocos ejemplos de entrenamiento y un alto grado de traslape) así como no temática (tarea de atribución de autoría). Un cuarto experimento se llevó a cabo para la tarea de la desambiguación del sentido de las palabras. Los resultados obtenidos en cada uno de estos experimentos nos permiten ver la efectividad de incorporar datos no etiquetados descargados de la Web al conjunto de entrenamiento.	es_ES
dc.language	Español	es_ES
dc.publisher	Universitat Politècnica de València	es_ES
dc.rights	Reserva de todos los derechos	es_ES
dc.source	Riunet
dc.subject	Categorización	es_ES
dc.subject	Semi-supervisado	es_ES
dc.subject	Web	es_ES
dc.subject	Corpus	es_ES
dc.title	Categorización semi-supervisada de Documentos usando la Web como corpus
dc.type	Tesis doctoral	es_ES
dc.identifier.doi	10.4995/Thesis/10251/6562	es_ES
dc.rights.accessRights	Abierto	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació	es_ES
dc.description.bibliographicCitation	Guzmán Cabrera, R. (2009). Categorización semi-supervisada de Documentos usando la Web como corpus [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/6562	es_ES
dc.description.accrualMethod	Palancia	es_ES
dc.type.version	info:eu-repo/semantics/acceptedVersion	es_ES
dc.relation.tesis	3181	es_ES

Categorización semi-supervisada de Documentos usando la Web como corpus

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Buscar en RiuNet

Listar

Todo RiuNet

Esta colección

Mi cuenta

Estadísticas

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Categorización semi-supervisada de Documentos usando la Web como corpus

Ficheros en el ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)