Resumen:
|
[EN] The technological revolution in which this society is immersed is generating an everincreasing amount of data, with enormous potential value, which can only be useful if it
is converted and transformed into information ...[+]
[EN] The technological revolution in which this society is immersed is generating an everincreasing amount of data, with enormous potential value, which can only be useful if it
is converted and transformed into information through a specific processing. Data profiling is among the techniques used to obtain this useful information. It uses
different indicators to explore and analyze the data in order to obtain a deeper understanding of its content and structure. The problem lies in the fact that the same profiling
cannot be performed on every type of data set, since it depends on the type of content
the data is composed of.
This bachelor’s thesis focuses on exposing and analyzing the most common quality
indicators or metrics when profiling structured data, i.e., those data sets that are organized in a specific and predictable way, presenting a format that is easily processed by
computers and that facilitate the data to be analyzed efficiently. Additionally, as part of
the work carried out, an API has been implemented, which allows processing any data
set, applying all the indicators studied.
[-]
[ES] La revolución tecnológica en la que está inmersa esta sociedad está generando cada
vez un mayor número de datos, con un enorme valor potencial, que tan sólo podrá ser
de utilidad si se convierten y transforman en ...[+]
[ES] La revolución tecnológica en la que está inmersa esta sociedad está generando cada
vez un mayor número de datos, con un enorme valor potencial, que tan sólo podrá ser
de utilidad si se convierten y transforman en información a través de un procesamiento
específico.
Entre las técnicas que se llevan a cabo para conseguir esta información útil, está el
perfilado de datos que, mediante diferentes indicadores, los exploran y los analizan con
el fin de obtener una compresión más profunda de su contenido y estructura. El problema
reside en que no se puede realizar el mismo perfilado en todo tipo de conjunto de datos,
dependiendo del tipo de contenido del que está compuesto.
Este TFG se centra en exponer, y analizar los indicadores o métricas de calidad más
comunes a la hora de la realización del perfilado de datos estructurados, es decir, aquellos
conjuntos de datos que se organizan de manera específica y predecible, presentando un
formato que es fácilmente procesable por computadoras y que facilitan que los datos se
puedan analizar de manera eficiente. Adicionalmente, como parte del trabajo realizado,
se ha implementado un API que permite procesar cualquier conjunto de datos, aplicando
todos los indicadores estudiados.
[-]
[CA] La revolució tecnològica en la qual està immersa aquesta societat està generant cada
vegada un major nombre de dades, amb un enorme valor potencial, que tan sols podrà
ser d’utilitat si es converteixen i transformen ...[+]
[CA] La revolució tecnològica en la qual està immersa aquesta societat està generant cada
vegada un major nombre de dades, amb un enorme valor potencial, que tan sols podrà
ser d’utilitat si es converteixen i transformen en informació a través d’un processament
específic.
Entre les tècniques que es duen a terme per a aconseguir aquesta informació útil, està
el perfilat de dades que, mitjançant diferents indicadors, els exploren i els analitzen amb
la finalitat d’obtindre una compressió més profunda del seu contingut i estructura. El
problema resideix en què no es pot realitzar el mateix perfilat en tota mena de conjunt de
dades, depenent del tipus de contingut del qual està compost.
Aquest TFG se centra en exposar, i analitzar els indicadors o mètriques de qualitat més comunes a l’hora de la realització del perfilat de dades estructurades, és a dir,
aquells conjunts de dades que s’organitzen de manera específica i predictible, presentant
un format que és fàcilment procesable per computadores i que faciliten que les dades es
puguen analitzar de manera eficient. Addicionalment, com a part del treball realitzat,
s’ha implementat un API que permet processar qualsevol conjunt de dades, aplicant tots
els indicadors estudiats.
[-]
|