Resumen:
|
[ES] Este trabajo se centra en el desarrollo de una plataforma de extracción y modelado de datos que puede ser utilizada como referencia para diferentes tipos de empresas, permitiéndoles extraer, unificar, modelar, almacenar ...[+]
[ES] Este trabajo se centra en el desarrollo de una plataforma de extracción y modelado de datos que puede ser utilizada como referencia para diferentes tipos de empresas, permitiéndoles extraer, unificar, modelar, almacenar y explotar datos de diversas fuentes y servicios empresariales. El objetivo principal es construir esta plataforma en la nube, con la capacidad de escalar tanto en términos de cómputo como de coste de manera eficiente. Se evaluarán herramientas estratégicas para el desarrollo de la plataforma, considerando factores como la velocidad de desarrollo, el mantenimiento, el bloqueo del proveedor, los costes y la escalabilidad del sistema. Además, se analizará la asignación de recursos en cada etapa del ciclo de vida de la ingeniería de datos, incluyendo buenas prácticas de desarrollo y seguridad en la construcción de pipelines de datos. Se considerarán diferentes formas de almacenar información para su explotación a escala, y se destacará la importancia del modelado aplicando técnicas básicas de modelado para un almacén de datos.
[-]
[EN] This work focuses on developing a data extraction and modeling platform that could serve as a model for different types of businesses, allowing them to extract, unify, model, store, and exploit data from various ...[+]
[EN] This work focuses on developing a data extraction and modeling platform that could serve as a model for different types of businesses, allowing them to extract, unify, model, store, and exploit data from various business sources and services. The main objective is to build the platform in the cloud, with the ability to scale both in computing power and cost in a reasonable manner.
On one hand, the tools used to build the platform will be evaluated, considering strategic factors for an organization. These factors include development speed, maintenance difficulty, vendor lock-in, economic costs, and system scalability. On the other hand, the allocation of resources in each part of the so-called data engineering lifecycle will be observed. Good development and security practices in building data pipelines will be explored, different ways of storing information for exploitation at scale will be considered, and the importance of modeling will be highlighted by applying basic modeling techniques for a data warehouse.
[-]
[CA] Aquest treball se centra en el desenvolupament d’una plataforma d’extracció i modelatge de dades que podria servir com a model per a diferents tipus d’empreses, permetentlos extreure, unificar, modelar, emmagatzemar ...[+]
[CA] Aquest treball se centra en el desenvolupament d’una plataforma d’extracció i modelatge de dades que podria servir com a model per a diferents tipus d’empreses, permetentlos extreure, unificar, modelar, emmagatzemar i explotar dades de diverses fonts i serveis
empresarials. L’objectiu principal és construir la plataforma al núvol, amb la capacitat
d’escalar tant en còmput com en cost de manera raonable.
D’una banda, s’avaluaran les eines utilitzades per construir la plataforma, considerant factors estratègics per a una organització. Aquests factors inclouen la velocitat de
desenvolupament, la dificultat de manteniment, el bloqueig del proveïdor, els costos econòmics i l’escalabilitat del sistema. D’altra banda, s’observarà l’assignació de recursos en
cada part de l’anomenat cicle de vida de l’enginyeria de dades. S’exploraran bones pràctiques de desenvolupament i seguretat en la construcció de pipelines de dades, es consideraran diferents formes d’emmagatzemar informació per a la seva explotació a escala, i
es destacarà la importància del modelatge aplicant tècniques bàsiques de modelatge per
a un magatzem de dades.
[-]
|