- -

Estudio y Desarrollo de una Librería en R para Evaluar las Prestaciones de un Clasificador

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Compartir/Enviar a

Citas

Estadísticas

  • Estadisticas de Uso

Estudio y Desarrollo de una Librería en R para Evaluar las Prestaciones de un Clasificador

Mostrar el registro sencillo del ítem

Ficheros en el ítem

dc.contributor.advisor Ferri Ramírez, César es_ES
dc.contributor.advisor Hernández Orallo, José es_ES
dc.contributor.author Morillo Alcivar, Paulina Adriana es_ES
dc.date.accessioned 2016-09-09T12:18:18Z
dc.date.available 2016-09-09T12:18:18Z
dc.date.created 2016-07-18
dc.date.issued 2016-09-09 es_ES
dc.identifier.uri http://hdl.handle.net/10251/69212
dc.description.abstract [ES] Los modelos de clasificación se generan por algoritmos de aprendizaje supervisado, que aprenden a través de un conjunto de datos de entrenamiento. Estos modelos establecen relaciones entre las instancias, que les permiten predecir si pertenecen, o no, a un mismo tipo o clase. Cuando los clasificadores se usan en aplicaciones de la vida real como: discriminación de imágenes, diagnósticos en medicina, gestión de las telecomunicaciones, bioinformática, clasificación de texto, detección de fraude en transacciones financieras, etc., se enfrentan a dificultades ocasionadas por la distribución de las clases y/o por los costes de clasificar erróneamente una instancia. Existen algunas herramientas que permiten evaluar las prestaciones de los clasi- ficadores, una de las más usadas debido a la facilidad de su interpretación es la curva ROC, que aunque tiene asociados estadísticos que permiten seleccionar o descartar modelos de acuerdo a su desempeño, no toma en cuenta la distribución de las clases y el coste de clasificación. Para solventar estas limitaciones surgieron las Curvas de Coste. El propósito de este trabajo es realizar un estudio de las herramientas gráficas de evaluación del rendimiento de clasificadores, dando mayor énfasis a las Curvas de Coste y métodos de selección de umbral sobre clasificadores suaves. Como resultado de este trabajo se desarrolla una librería gráfica, en el lenguaje de programación R, que incorpora estas funcionalidades. Además, se incluyen algunos ejemplos del uso de la nueva librería con conjuntos de datos reales y métodos de clasificación conocidos. Estos ejemplos ilustran las ventajas que presenta la utilización de las Curvas de Costes y los métodos de selección de umbral cuando se requiere evaluar el rendimiento de clasificadores en entornos con contextos cambiantes. es_ES
dc.description.abstract [EN] Classification models are generated by supervised learning algorithms that learn through a training dataset. These models establish relationships between instances, which allow them to predict whether they belong or not to the same type or class. When classifiers are used in real-life applications, such as image discrimination, medical diagnosis, telecommunications management, bioinformatics, text classification, fraud detection in financial transactions, and others, they face difficulties caused by the distribution of classes and/or the cost of misclassifying an instance. There are some tools that can evaluate the performance of classifiers. In particular, the ROC curve is one of the most used due to its ease of interpretation. Although it has statistical methods that allow to select or exclude models according to their performance, the ROC Curve does not take into account distributions of classes and misclassification costs. The Cost Curves appeared as a solution to overcome these limitations. This paper aims to research graphic tools for performance evaluation of classi- fiers, focused on Cost Curves and threshold choice methods applied to soft classi- fiers. As a result of this analysis, we develop, using the programming language R, a graphical library that incorporates these functionalities. We include some examples using the new library with real datasets and well-known classifiers methods. These examples illustrate the advantages that introduce the use of Cost Curves and threshold choice methods when we want to assess the performance of classi- fiers in environments with changing context. es_ES
dc.format.extent 130 es_ES
dc.language Español es_ES
dc.publisher Universitat Politècnica de València es_ES
dc.rights Reserva de todos los derechos es_ES
dc.subject Aprendizaje supervisado es_ES
dc.subject Aprendizaje automático es_ES
dc.subject Clasificación es_ES
dc.subject Evaluación del rendimiento es_ES
dc.subject Curvas ROC es_ES
dc.subject Curvas de Coste es_ES
dc.subject R (Lenguaje de programación) es_ES
dc.subject Supervised learning es_ES
dc.subject Machine learning es_ES
dc.subject Classification es_ES
dc.subject Performance evaluation es_ES
dc.subject ROC curves es_ES
dc.subject Cost Curves es_ES
dc.subject R (Programming language) es_ES
dc.subject.classification LENGUAJES Y SISTEMAS INFORMATICOS es_ES
dc.subject.other Máster Universitario en Gestión de la Información-Màster universitari en Gestió de la Informació es_ES
dc.title Estudio y Desarrollo de una Librería en R para Evaluar las Prestaciones de un Clasificador es_ES
dc.type Tesis de máster es_ES
dc.rights.accessRights Abierto es_ES
dc.contributor.affiliation Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació es_ES
dc.contributor.affiliation Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica es_ES
dc.description.bibliographicCitation Morillo Alcivar, PA. (2016). Estudio y Desarrollo de una Librería en R para Evaluar las Prestaciones de un Clasificador. http://hdl.handle.net/10251/69212. es_ES
dc.description.accrualMethod TFGM es_ES
dc.relation.pasarela TFGM\46915 es_ES


Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem