- -

On Clustering and Evaluation of Narrow Domain Short-Test Corpora

RiuNet: Institutional repository of the Polithecnic University of Valencia

Share/Send to

Cited by

Statistics

On Clustering and Evaluation of Narrow Domain Short-Test Corpora

Show simple item record

Files in this item

dc.contributor.advisor Rosso ., Paolo es_ES
dc.contributor.advisor Jimenez Salazar, Hector es_ES
dc.contributor.author Pinto Avendaño, David Eduardo es_ES
dc.date.accessioned 2008-07-23T12:11:03Z
dc.date.available 2008-07-23T12:11:03Z
dc.date.created 2008-07-15T08:00:00Z es_ES
dc.date.issued 2008-07-23T12:10:50Z es_ES
dc.identifier.uri http://hdl.handle.net/10251/2641
dc.description.abstract En este trabajo de tesis doctoral se investiga el problema del agrupamiento de conjuntos especiales de documentos llamados textos cortos de dominios restringidos. Para llevar a cabo esta tarea, se han analizados diversos corpora y métodos de agrupamiento. Mas aún, se han introducido algunas medidas de evaluación de corpus, técnicas de selección de términos y medidas para la validez de agrupamiento con la finalidad de estudiar los siguientes problemas: -Determinar la relativa dificultad de un corpus para ser agrupado y estudiar algunas de sus características como longitud de los textos, amplitud del dominio, estilometría, desequilibrio de clases y estructura. -Contribuir en el estado del arte sobre el agrupamiento de corpora compuesto de textos cortos de dominios restringidos El trabajo de investigación que se ha llevado a cabo se encuentra parcialmente enfocado en el "agrupamiento de textos cortos". Este tema se considera relevante dado el modo actual y futuro en que las personas tienden a usar un "lenguaje reducido" constituidos por textos cortos (por ejemplo, blogs, snippets, noticias y generación de mensajes de textos como el correo electrónico y el chat). Adicionalmente, se estudia la amplitud del dominio de corpora. En este sentido, un corpus puede ser considerado como restringido o amplio si el grado de traslape de vocabulario es alto o bajo, respectivamente. En la tarea de categorización, es bastante complejo lidiar con corpora de dominio restringido tales como artículos científicos, reportes técnicos, patentes, etc. El objetivo principal de este trabajo consiste en estudiar las posibles estrategias para tratar con los siguientes dos problemas: a) las bajas frecuencias de los términos del vocabulario en textos cortos, y b) el alto traslape de vocabulario asociado a dominios restringidos. Si bien, cada uno de los problemas anteriores es un reto suficientemente alto, cuando se trata con textos cortos de dominios restringidos, la complejidad del problema se incr es_ES
dc.language Español es_ES
dc.publisher Universitat Politècnica de València es_ES
dc.rights Reserva de todos los derechos es_ES
dc.source Riunet
dc.subject Clustering
dc.subject Evaluation
dc.subject Narrrow domain
dc.subject Short texts
dc.subject Agrupamiento
dc.subject Evaluación
dc.subject Textos cortos
dc.subject Dominios restringidos
dc.subject Agrupament
dc.subject Avaluació
dc.subject Textos curts
dc.subject Dominis restringits
dc.subject.classification LENGUAJES Y SISTEMAS INFORMATICOS es_ES
dc.title On Clustering and Evaluation of Narrow Domain Short-Test Corpora
dc.type Tesis doctoral es_ES
dc.subject.unesco 1203 - Ciencia de los ordenadores es_ES
dc.subject.unesco 120304 - Inteligencia artificial es_ES
dc.identifier.doi 10.4995/Thesis/10251/2641 es_ES
dc.rights.accessRights Abierto es_ES
dc.contributor.affiliation Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació es_ES
dc.description.bibliographicCitation Pinto Avendaño, DE. (2008). On Clustering and Evaluation of Narrow Domain Short-Test Corpora [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/2641 es_ES
dc.description.accrualMethod Palancia es_ES
dc.type.version info:eu-repo/semantics/acceptedVersion es_ES
dc.relation.tesis 2867 es_ES


This item appears in the following Collection(s)

Show simple item record