Resumen:
|
[ES] El presente TFM pretende modelizar la correlación entre diversos indicadores obtenidos de todos los países del mundo. Se estudiará la dinámica mundial tanto en las similitudes entre los países como en la relación entre ...[+]
[ES] El presente TFM pretende modelizar la correlación entre diversos indicadores obtenidos de todos los países del mundo. Se estudiará la dinámica mundial tanto en las similitudes entre los países como en la relación entre las variables. Además, se emplearán modelos de clasificación. Para esto, se cuenta con una base de datos pública de Naciones Unidas y el Banco Mundial, con 120 variables para todos los 234 países del mundo, en el período 2000 2014. Esta base de datos tiene una gran cantidad de valores faltantes, por lo que se ha realizado un preprocesamiento consistente en eliminar países y variables que no cumplan con un porcentaje mínimo de datos.
El resultante es una matriz final de 139 países con 49 variables para los 14 años considerados, la cual presenta un 19,56% de valores faltantes. Dichos valores han sido imputados por medio de cinco métodos: modelo de imputación de k vecinos más cercanos, Imputación Múltiple, Trimmed Scores Regression, Imputación por Algoritmo Iteractivo e Imputación por árboles de regresión. A partir de los resultados, se ha elegido el mejor modelo, el cual se ha validado con el 5% aleatorio de datos conocidos con la técnica de bondad de ajuste de menor RMSE.
Una vez se dispone de la matriz completa (imputada), en el trabajo se analizan tanto las similitudes y diferencias en el agrupamiento de los países, así como la dinámica mundial de las variables al observar sus relaciones en ámbitos geográficos, sociales, ambientales, de calidad de vida, etc. A partir de las 49 variables se han obtenido tres factores mediante un Análisis de Componentes Principales (PCA).
Posteriormente se ha realizado una propuesta de clasificación de países en función de su desarrollo, mediante cinco técnicas estadísticas de aprendizaje supervisado: Regresión Logística, Árboles de Clasificación, Máquinas de Soporte Vectorial, Redes Neuronales y PLS Discriminante, considerando al Índice de Desarrollo Humano (IDH) como variable dependiente y a las 49 variables (indicadores económicos, sociales, poblacionales, ambientales, de calidad de vida, mortalidad, etc.) como variables independientes.
La capacidad predictiva de los modelos de clasificación se ha estudiado tanto para la matriz completa como para datos Hold Out (75% de datos para calibración y 25% para validación) con el objetivo de compararlos con las técnicas de validación basadas en la matriz de confusión y curva ROC.
[-]
|