Resumen:
|
[ES] En una sociedad en la que los datos creados y almacenados sobre, prácticamente, cualquier actividad realizada por la población crecen de forma exponencial, el análisis de datos, concretamente de cantidades masivas de ...[+]
[ES] En una sociedad en la que los datos creados y almacenados sobre, prácticamente, cualquier actividad realizada por la población crecen de forma exponencial, el análisis de datos, concretamente de cantidades masivas de datos a través de técnicas de data science, se ha convertido en una de las grandes herramientas con la que cuentan las grandes empresas para aumentar sus ganancias. Sin embargo, no solo estas grandes empresas son las que pueden beneficiarse de las diferentes técnicas de data science.
Por otro lado, con una población en la que aumenta el interés por conocer diferentes pautas para cuidar mejor de su salud, especialmente a la hora de alimentarse, se ve necesario que estas personas puedan tener información clara y segura que responda a sus preguntas sobre alimentación.
El presente trabajo, realizado como proyecto de prácticas del máster en Cooperación al Desarrollo, pretende unir ambas situaciones. Así, mientras aprovecha los datos ya recolectados y almacenados por parte de una gran empresa de análisis de datos, Nielsen, busca información que pueda ayudar a la población a la hora de tomar decisiones sobre su alimentación.
Para el desarrollo de este proyecto, se han empleado dos bases de datos, una primera con información del gasto en alimentación de los españoles, cedida por Nielsen y, otra extraída del Instituto Nacional de Estadística (INE), con datos sobre el porcentaje de casos de enfermedades crónicas (colesterol, hipertensión, diabetes y obesidad) en España.
Para llevar a cabo el análisis, se han seguido diferentes etapas de trabajo que incluyen el estudio de proyectos similares y búsqueda de la base de datos de enfermedades, el análisis separado de cada base de datos, el análisis conjunto de las mismas y, finalmente, el análisis de los resultados obtenidos. La fase de análisis de datos conjunta se ha realizado con el empleo de técnicas de correlación lineal y de regresión lineal, gracias a las cuales se han podido determinar aquellas categorías de alimentos que guardan una relación significativa, positiva o negativa con las diferentes enfermedades crónicas analizadas.
Se han encontrado diferentes limitaciones a la hora de desarrollar el análisis, principalmente la escasez de muestra con la que se ha trabajado. Sin embargo, los resultados, que corroboran la opinión de los expertos sobre la influencia de la alimentación en el desarrollo de enfermedades crónicas, demuestran que es posible utilizar estas técnicas para llegar a resultados válidos y se ven como un primer acercamiento a esta problemática. Finalmente, se exponen una serie de conclusiones y recomendaciones de cara a futuros proyectos que ahonden en esta problemática.
[-]
[EN] Data generated and collected on practically any activity carried out by the population are incresing more and more. Data analysis, in particular, the analysis of massive amounts of data using Big data techniques has ...[+]
[EN] Data generated and collected on practically any activity carried out by the population are incresing more and more. Data analysis, in particular, the analysis of massive amounts of data using Big data techniques has become in one of the great tools available to large companies to increase their profits. However, it is not only these large companies wich can benefit from the different data science techniques.
On the other hand, in Spain is growing the number of people who is interested in learn to feed better because they want to care of their health. It¿s necessary that these people can Access clear and secure information to answer their questions about food.
This work, carried out as an internship project for the Master's degree in Development Cooperation, aims to combine both situations. Thus, while taking advantage of the data already collected and stored by a large data analysis company, Nielsen, it seeks information that can help people to make better decisions about their feeding.
In this poryect have been used two databases. The first database provided information on food expenditure by Spaniards and he second, extracted from the National Statistics Institute (INE), with data on the percentage of cases of chronic diseases (cholesterol, hypertension, diabetes and obesity) in Spain.
In order to carry out the analysis, different work stages have been followed. Studying of similar projects and search for the disease database, separate analysis of each database, analysis of both databases and, finally, the analysis of the results obtained are been the different work stages. The joint data analysis phase was carried out using linear correlation and linear regression techniques, thanks to which it was possible to determine those food categories that have a significant positive or negative relationship with the different chronic diseases analysed.
Different limitations were found during analysis process, mainly due to the small sample size. However, the results, which corroborate the experts' opinion on the influence of feeding on the development of chronic diseases, show that it is possible to use these techniques to arrive at valid results and are seen as a first approach to this problem. Finally, some conclusions and recommendations are made for future similar projects.
[-]
|