Resumen:
|
[ES] Hoy en día hay poco trabajo de investigación centrado en las técnicas de Feature
Selection (FS), incluidas las características categóricas y continuas en la literatura de
Estimación del esfuerzo de desarrollo de ...[+]
[ES] Hoy en día hay poco trabajo de investigación centrado en las técnicas de Feature
Selection (FS), incluidas las características categóricas y continuas en la literatura de
Estimación del esfuerzo de desarrollo de software. Este documento aborda el problema
de seleccionar las características más relevantes del conjunto de datos de ISBSG
(International Software Benchmarking Standards Group) para su uso en la estimación
de esfuerzo de desarrollo software. El objetivo es mostrar la utilidad de dividir en dos la
lista clasificada de características proporcionadas por un enfoque secuencial de FS
basado en información mutua, con respecto a características categóricas y continuas.
Estas listas se recombinan posteriormente de acuerdo con la precisión de un modelo de
razonamiento basado en casos. Por lo tanto, se comparan cuatro algoritmos de FS
utilizando un conjunto de datos completo con 621 proyectos y 12 características de
ISBSG. Por un lado, dos algoritmos solo consideran la relevancia, mientras que los dos
restantes siguen el criterio de maximizar la relevancia y también minimizar la
redundancia entre cualquier característica independiente y las características ya
seleccionadas. Por otro lado, los algoritmos que no discriminan entre características
continuas y categóricas consideran solo una lista, mientras que los que las diferencian
utilizan dos listas que luego se combinan. Como resultado, los algoritmos que utilizan
dos listas presentan un mejor rendimiento que los algoritmos que utilizan una sola lista.
Por lo tanto, es significativo considerar dos listas diferentes de características para que
las características categóricas se puedan seleccionar con mayor frecuencia.
[-]
[EN] There is still little research work focused on feature selection (FS) techniques including
both categorical and continuous features in Software Development Effort Estimation
(SDEE) literature. This paper addresses ...[+]
[EN] There is still little research work focused on feature selection (FS) techniques including
both categorical and continuous features in Software Development Effort Estimation
(SDEE) literature. This paper addresses the problem of selecting the most relevant
features from ISBSG (International Software Benchmarking Standards Group) dataset
to be used in SDEE. The aim is to show the usefulness of splitting the ranked list of
features provided by a mutual information-based sequential FS approach in two,
regarding categorical and continuous features. These lists are later recombined
according to the accuracy of a case-based reasoning model. Thus, four FS algorithms are
compared using a complete dataset with 621 projects and 12 features from ISBSG. On
the one hand, two algorithms just consider the relevance, while the remaining two follow
the criterion of maximizing relevance and also minimizing redundancy between any
independent feature and the already selected features. On the other hand, the algorithms
that do not discriminate between continuous and categorical features consider just one
list, whereas those that differentiate them use two lists that are later combined. As a
result, the algorithms that use two lists present better performance than those algorithms
that use one list. Thus, it is meaningful to consider two different lists of features so that
the categorical features may be selected more frequently.
[-]
|