Resumen:
|
[ES] En la actualidad, los datos almacenados en sistemas informáticos aumentan sin cesar
a cada segundo que pasa. Esto incluye datos de diversa índole, yendo desde información
personal de particulares hasta información ...[+]
[ES] En la actualidad, los datos almacenados en sistemas informáticos aumentan sin cesar
a cada segundo que pasa. Esto incluye datos de diversa índole, yendo desde información
personal de particulares hasta información de grandes entidades empresariales y organizativas. Esta enorme cantidad de datos no se almacenan de forma casual, sino que se
registran desde un contexto empresarial con el fin de generar más beneficios para las empresas. Para ello, han de ser gestionadas e interpretadas de forma óptima. Esto se puede
conseguir, entre otros métodos, mediante el uso de tecnologías vanguardistas que apliquen análisis de datos como el aprendizaje automático (machine learning), lo que permite
alimentar al sistema con conjuntos de datos de clientes para aprender patrones de compra
o comportamiento y sugerir productos específicos a los clientes con más probabilidades
de ser comprados. Sin embargo, este proceso se ve entorpecido cuando los datos de la
organización provienen de diferentes sistemas de almacenamiento de datos, ERP (Enterprise Resource Planning), ya que hay que orquestar los distintos datos que provienen entre
las ERP. De no ser así, el proceso no funcionará correctamente, independientemente de
lo avanzado que sea el aprendizaje automático disponible u otros tipos de análisis de datos. Se debe buscar una solución siempre que la calidad de la información presentada sea
pobre o esté mal estructurada.
En el presente estudio se recrea de forma simplificada cómo una entidad organizativa
gestiona la obtención de información procedente de varios sistemas de gestión de datos.
El estándar de calidad de información es bajo (lo cual es perjudicial para la empresa) e
incluye información repetida en distintos sistemas, registros de clientes redundantes pero con información dispar o registros con información incompleta. Se alcanza la solución
mediante el uso de una herramienta ETL (Extracción Transformación Carga), con la que
se extraerán los datos de los distintos sistemas del cliente, usando expresiones simples
que aplicarán la primera capa de limpieza de datos y estos datos serán cargados al sistema MDM (Master Data Management). La herramienta MDM, eje principal de este proyecto, es la encargada de la creación de datos maestros mediante la comparación de los datos
procedentes de todos los sistemas. Su puesta en práctica se basa en la aplicación de reglas
que combinan datos redundantes, dando lugar a la fusión de los datos y obteniendo tras
el proceso unos datos maestros limpios, sin duplicados o registros obsoletos.
Este proceso permite concluir que MDM es una herramienta extremadamente potente para grandes organizaciones que dependen de varios sistemas de datos diferentes.
Haciendo uso de ella, pueden obtener un flujo de información carente de errores para
comenzar a explotarlo de manera completamente eficiente.
[-]
[EN] At the present time, the amount of data stored on computer systems is constantly
increasing every second. This includes data of various kinds, ranging from personal information of individuals to information of large ...[+]
[EN] At the present time, the amount of data stored on computer systems is constantly
increasing every second. This includes data of various kinds, ranging from personal information of individuals to information of large corporate and organizational entities.
This enormous amount of data is not stored accidentally, but is stored because of an entrepreneurial approach in order to generate more profit for companies. To this end, they
have to be optimally managed and interpreted. This can be achieved, among other methods, through the use of cutting-edge technologies that apply data analytics such as machine learning, which allows the system to be fed with customer datasets to learn buying
or behavioral patterns and suggest specific products that are most likely to be purchased
by the customers. However, this process is hindered when the organization’s data comes
from different ERPs (Enterprise Resource Planning), as the different data coming from
different ERPs must be orchestrated. Otherwise, the process will not work properly, regardless of how advanced machine learning or other types of data analytics are available.
A solution must be provided whenever the quality of the information presented is insufficient or poorly structured.
This study recreates, in a simplified way, how an organizational entity manages the
sourcing of information from various data management systems. Information quality
standards are low (which is detrimental to the company) and include repeated information in different systems, redundant customer records but with disparate information or
records with incomplete information. The solution is achieved through the use of an ETL
(Extract Transform Load) tool, with which data will be extracted from the different client
systems, using simple expressions that will apply the first layer of data cleansing, and
this data will be loaded into the MDM system (Master Data Management). The MDM tool,
which is the main focus of this project, is responsible for the creation of master data by
comparing data from all systems. Its implementation is based on the application of rules
that combine redundant data, resulting in the merging of data and obtaining clean master
data after the process, without duplicates or obsolete records.
This process leads to the conclusion that MDM is an extremely powerful tool for large
organizations that rely on several different data systems. By making use of it, they can
obtain an error-free flow of information to start exploiting it in a fully efficient way.
[-]
[CA] En l’actualitat, les dades emmagatzemades en sistemes informàtics augmenten sense
parar a cada segon que passa. Això inclou dades de diversa índole, anant des d’informació personal de particulars fins a informació ...[+]
[CA] En l’actualitat, les dades emmagatzemades en sistemes informàtics augmenten sense
parar a cada segon que passa. Això inclou dades de diversa índole, anant des d’informació personal de particulars fins a informació de grans entitats empresarials i organitzatives. Aquesta enorme quantitat de dades no s’emmagatzemen de manera casual, sinó
que es registren des d’un context empresarial amb la finalitat de generar més beneficis
per a les empreses. Per a això, han de ser gestionades i interpretades de manera òptima.
Això es pot aconseguir, entre altres mètodes, mitjançant l’ús de tecnologies avantguardistes que apliquen anàlisis de dades com l’aprenentatge automàtic (machine learning),
la qual cosa permet alimentar al sistema amb conjunts de dades de clients per a aprendre patrons de compra o comportament i suggerir productes específics als clients amb
més probabilitats de ser comprats. No obstant això, aquest procés es veu entorpit quan
les dades de l’organització provenen de diferents sistemes d’emmagatzematge de dades,
ERP (Enterprise Resource Planning), ja que cal orquestrar les diferents dades que provenen
entre les ERP. De no ser així, el procés no funcionarà correctament, independentment de
l’avançat que siga l’aprenentatge automàtic disponible o altres tipus d’anàlisis de dades.
S’ha de buscar una solució sempre que la qualitat de la informació presentada siga pobra
o estiga mal estructurada.
En el present estudi es recrea de forma simplificada com una entitat organitzativa gestiona l’obtenció d’informació procedent de diversos sistemes de gestió de dades. L’estàndard de qualitat d’informació és baix (la qual cosa és perjudicial per a l’empresa) i inclou
informació repetida en diferents sistemes, registres de clients redundants però amb informació dispar o registres amb informació incompleta. S’aconsegueix la solució mitjançant
l’ús d’una eina ETL (Extract Transform Load), amb la qual s’extrauran les dades dels diferents sistemes del client, usant expressions simples que aplicaran la primera capa de
neteja de dades i aquestes dades seran carregades al sistema MDM (Master Data Management). L’eina MDM, eix principal d’aquest projecte, és l’encarregada de la creació de
dades mestres mitjançant la comparació de les dades procedents de tots els sistemes. La
seua posada en pràctica es basa en l’aplicació de regles que combinen dades redundants,
donant lloc a la fusió de les dades i obtenint després del procés unes dades mestres netes,
sense duplicats o registres obsolets.
Aquest procés permet concloure que MDM és una eina extremadament potent per a
grans organitzacions que depenen de diversos sistemes de dades diferents. Fent ús d’ella,
poden obtindre un flux d’informació mancada d’errors per a començar a explotar-lo de
manera completament eficient.
[-]
|