Abstract:
|
[ES] Las fuentes de datos hoy en día son heterogéneas y de un tamaño enorme, gracias al adelanto
tecnológico experimentado, se nos ha abierto la posibilidad de acceder a tal cantidad de información,
pero el problema ha ...[+]
[ES] Las fuentes de datos hoy en día son heterogéneas y de un tamaño enorme, gracias al adelanto
tecnológico experimentado, se nos ha abierto la posibilidad de acceder a tal cantidad de información,
pero el problema ha pasado a ser ahora el de manejar correctamente dicho exceso de información. Un
aspecto a tener presente es que estos datos suelen venir acompañados de ruido y valores incompletos
o inconsistentes, por lo que una tarea fundamental antes de trabajar con ellos, es minimizar estos
errores o falta de precisión al máximo, siendo conscientes que es imposible asegurar que han
desaparecido por completo y en un problema real siempre estarán presentes.
La minería de datos puede entenderse como el "Proceso de extracción de información desconocida con
anterioridad, válida y potencialmente útil de grandes bases de datos, para usarla con posterioridad
para tomar decisiones importantes de negocio", para ello es muy importante que su precisión sea la
mas elevada posible y el ruido puede acabar siendo un serio impedimento, de aquí la importancia de
ser capaces de conocer en detalle y prever su comportamiento.
Este trabajo pretende aproximar estos dos conceptos, estudiando como se comportan los distintos
modelos de predicción ante la presencia de ruido, para ello se ha realizado una serie de experimentos,
donde se ha introducido ruido articialmente en los datos de test de una serie de datasets emulando
situaciones posibles y se han analizado sus resultados, obteniendo una visión de cual nos ofrece una
mayor robustez o cual es mas sensible frente a la presencia de este incomodo pero inseparable
elemento de las fuentes de información actuales, lo que puede ser importante a la hora de tomar
decisiones en la resolución de un problema real.
[-]
[EN] Data sources are heterogeneous and huge, due to technological advances nowadays, we have the
chance for accessing to so much information, but the problem has now become in handling properly
this information. One ...[+]
[EN] Data sources are heterogeneous and huge, due to technological advances nowadays, we have the
chance for accessing to so much information, but the problem has now become in handling properly
this information. One important thing to remember is that these data come often accompanied by
noise and incomplete or inconsistent values, so a fundamental task before working with them, is to
reduce such errors or inaccuracies to the limit, being aware that it is impossible to ensure that
everyone have disappeared and they will be always present in a real problem.
Data mining can be understood as the "process of extracting information previously unknown, valid
and potentially useful for large databases, in order to make important business decisions", this is the
reason why it is very important that the precision becomes the higher possible and noise may end up
being a serious impediment for that, hence it is important being able to know it deeply and predict
their behavior.
This work aims to bring together these two concepts, studying how different prediction models will
behave in the presence of noise, for this reason we have made some experiments where articial noise
is introduced in the test data from a number of datasets, emulating possible situations and the results
have been analyzed, obtaining a vision of which offers a higher robustness or which is more sensitive
to the presence of this uncomfortable but inseparable element of information resources, that can be
significant when we have to take decisions solving a real problem.
[-]
|