Resumen:
|
[ES] Los modelos de clasificación se generan por algoritmos de aprendizaje supervisado,
que aprenden a través de un conjunto de datos de entrenamiento. Estos
modelos establecen relaciones entre las instancias, que les ...[+]
[ES] Los modelos de clasificación se generan por algoritmos de aprendizaje supervisado,
que aprenden a través de un conjunto de datos de entrenamiento. Estos
modelos establecen relaciones entre las instancias, que les permiten predecir si
pertenecen, o no, a un mismo tipo o clase. Cuando los clasificadores se usan en
aplicaciones de la vida real como: discriminación de imágenes, diagnósticos en
medicina, gestión de las telecomunicaciones, bioinformática, clasificación de texto,
detección de fraude en transacciones financieras, etc., se enfrentan a dificultades
ocasionadas por la distribución de las clases y/o por los costes de clasificar
erróneamente una instancia.
Existen algunas herramientas que permiten evaluar las prestaciones de los clasi-
ficadores, una de las más usadas debido a la facilidad de su interpretación es la
curva ROC, que aunque tiene asociados estadísticos que permiten seleccionar o
descartar modelos de acuerdo a su desempeño, no toma en cuenta la distribución
de las clases y el coste de clasificación. Para solventar estas limitaciones surgieron
las Curvas de Coste.
El propósito de este trabajo es realizar un estudio de las herramientas gráficas de
evaluación del rendimiento de clasificadores, dando mayor énfasis a las Curvas
de Coste y métodos de selección de umbral sobre clasificadores suaves. Como
resultado de este trabajo se desarrolla una librería gráfica, en el lenguaje de programación
R, que incorpora estas funcionalidades. Además, se incluyen algunos
ejemplos del uso de la nueva librería con conjuntos de datos reales y métodos de
clasificación conocidos. Estos ejemplos ilustran las ventajas que presenta la utilización
de las Curvas de Costes y los métodos de selección de umbral cuando se
requiere evaluar el rendimiento de clasificadores en entornos con contextos cambiantes.
[-]
[EN] Classification models are generated by supervised learning algorithms that
learn through a training dataset. These models establish relationships between
instances, which allow them to predict whether they belong ...[+]
[EN] Classification models are generated by supervised learning algorithms that
learn through a training dataset. These models establish relationships between
instances, which allow them to predict whether they belong or not to the same
type or class. When classifiers are used in real-life applications, such as image
discrimination, medical diagnosis, telecommunications management, bioinformatics,
text classification, fraud detection in financial transactions, and others,
they face difficulties caused by the distribution of classes and/or the cost of misclassifying
an instance.
There are some tools that can evaluate the performance of classifiers. In particular,
the ROC curve is one of the most used due to its ease of interpretation.
Although it has statistical methods that allow to select or exclude models according
to their performance, the ROC Curve does not take into account distributions
of classes and misclassification costs. The Cost Curves appeared as a solution to
overcome these limitations.
This paper aims to research graphic tools for performance evaluation of classi-
fiers, focused on Cost Curves and threshold choice methods applied to soft classi-
fiers. As a result of this analysis, we develop, using the programming language R,
a graphical library that incorporates these functionalities. We include some examples
using the new library with real datasets and well-known classifiers methods.
These examples illustrate the advantages that introduce the use of Cost Curves
and threshold choice methods when we want to assess the performance of classi-
fiers in environments with changing context.
[-]
|