Resumen:
|
[ES] Este Trabajo Fin de Master consiste, por una parte, en el análisis de un subconjunto de herramientas informáticas del ecosistema de Apache Hadoop orientadas a cubrir el ciclo de vida completo de un proyecto de Big ...[+]
[ES] Este Trabajo Fin de Master consiste, por una parte, en el análisis de un subconjunto de herramientas informáticas del ecosistema de Apache Hadoop orientadas a cubrir el ciclo de vida completo de un proyecto de Big Data y, por otra parte, en la implementación mediante dichas herramientas de una prueba de concepto en la que se desarrolla un sistema de Big Data con la información real de una empresa cuyo negocio es la venta de entradas de distintos recintos a través de diversos canales.
Se aborda desde la primera etapa, en la que se incorpora información de distintas fuentes en el sistema, hasta la última, en la que se presentan los resultados con el objetivo de obtener una mayor caracterización de los clientes.
Para llevar a cabo este estudio, se analizarán distintas posibilidades para procesar y analizar una gran cantidad de información en un sistema distribuido con una enorme capacidad de almacenamiento y procesamiento de datos, y que proporcione igualmente, una gran escalabilidad, y una importante tolerancia a fallos.
[-]
[EN] This End of Master's work consists on two parts. The first one is the analysis of a subset of computer tools of the Apache Hadoop ecosystem aimed at covering the complete life cycle of a Big Data project.
The second ...[+]
[EN] This End of Master's work consists on two parts. The first one is the analysis of a subset of computer tools of the Apache Hadoop ecosystem aimed at covering the complete life cycle of a Big Data project.
The second one is the implementation, using those tools, of a proof of concept in which a Big Data system is developed with the real information of a company whose purpose is the sale of tickets from different venues through various channels.
It is addressed from the first stage, in which information from different sources is incorporated into the system, to the last one, in which the results are presented with the aim of obtaining a greater characterization of customers.
To carry out this study, different possibilities for processing and analyzing a large amount of information will be analyzed in a distributed system with
a huge capacity of storage and data processing, and that also provides great scalability and a significant fault tolerance.
[-]
|