Resumen:
|
[ES] El proyecto trata sobre la implementación de un sistema de validación de registros de datos en un big data diseñado para la empresa Inetum tanto para procesamiento masivo o para procesamiento en real-time. Un ejemplo ...[+]
[ES] El proyecto trata sobre la implementación de un sistema de validación de registros de datos en un big data diseñado para la empresa Inetum tanto para procesamiento masivo o para procesamiento en real-time. Un ejemplo de caso de uso que trata de resolver este proyecto es el alta de un nuevo cliente en un banco. El sistema se basa en software gratuito y abarcará capacidades similares a las desarrolladas en software propietario, como Informatica Data Quality. Para ello se propone desarrollar y desplegar un sistema de los datos, que de forma centralizada permitirá asegurar anticipadamente que la información proporcionada cumple con los requisitos definidos y los estándares de calidad del proceso de integración.
La primera parte del proyecto constará en realizar un proceso de web scraping, para convertir una página web en un fichero de datos, ya que no existen grandes bases de datos públicas de apellidos y de nombres.
Una vez teniendo estos ficheros, se habrá de pasar al tema de validar los datos del cliente. Es decir, que el cliente proporcione sus datos y validar como de ciertos son, si existen, si se ha equivocado al escribirlo o si no existen. Para ello se creará un modelo heurístico que indique el porcentaje de certeza, por ejemplo, si el apellido es 'García' pero lo ha escrito mal ('Garcia', 'Gacía') que también lo de como valido e indique que probabilidad existe de que el apellido sea García. Este modelo no solo se basará en programación en python sino en un análisis heurístico.
El sistema presenta cuatro funcionalidades:
¿ Analítica: Consta de un cuadro de mandos en el que se podrá abordar y analizar los distintos aspectos de calidad de los datos.
¿ Monitorización: Comprobar mediante procesos de monitorización la performance de la arquitectura
¿ Normalización: Aplicar reglas y transformaciones para adaptar los datos y que así sigan el formato adecuado
¿ Validación: Donde el sistema genera la validación y almacena los resultados.
[-]
[EN] This project is about the implementation of a data validation system in a big data, designed for Inetum¿s company and used for mass processing but also real-time processing. A case of use would be to register a new ...[+]
[EN] This project is about the implementation of a data validation system in a big data, designed for Inetum¿s company and used for mass processing but also real-time processing. A case of use would be to register a new client in a bank company. The system is about free software, and it will reach similar capabilities than proprietary software, such as Computing Data Quality. The proposal is to develop and to deploy a data system that in a centrally way, will allow to assure in advance that the information given fulfils the requests and the quality standards about the integration process.
The first thing to do in this project will be a web scrapping process which will be essential to turn a web site into a data file as there are not big names and surname¿s public data bases.
Once we have this data files, the next thing will be to validate the client¿s data. The client will have to provide his/her data and we will have to validate how certain it is, if it exists, if he/she has misspelled it or if it does not exist. This will be done with a heuristic model which indicates the certainty¿s percentage, for example, if the surname provided is `García¿ but he/she has misspelled it (`Garcia¿, `Gacía¿) it will be counted as valid and it will also include how probably is that the surname given is García. This model will be arranged using python but also using a heuristic model.
The system has four functionalities:
¿ Analytic: Includes a console in which the different data quality aspects will be approached and analysed.
¿ Monitoring: Where we will check by monitoring processes the architecture¿s performance.
¿ Standardization: To apply rules and transformations to adapt the data to follow the correct format.
¿ Validation: Where the system generates the validation and stores the results.
[-]
|