- -

Sistema de validación de registros de datos en un big data diseñado para la empresa Inetum

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Compartir/Enviar a

Citas

Estadísticas

  • Estadisticas de Uso

Sistema de validación de registros de datos en un big data diseñado para la empresa Inetum

Mostrar el registro sencillo del ítem

Ficheros en el ítem

dc.contributor.advisor Gil Gómez, Hermenegildo es_ES
dc.contributor.advisor García Iranzo, Jose Luís es_ES
dc.contributor.author Romero García, Sara es_ES
dc.date.accessioned 2021-10-11T13:42:48Z
dc.date.available 2021-10-11T13:42:48Z
dc.date.created 2021-09-27 es_ES
dc.date.issued 2021-10-11 es_ES
dc.identifier.uri http://hdl.handle.net/10251/174435
dc.description.abstract [ES] El proyecto trata sobre la implementación de un sistema de validación de registros de datos en un big data diseñado para la empresa Inetum tanto para procesamiento masivo o para procesamiento en real-time. Un ejemplo de caso de uso que trata de resolver este proyecto es el alta de un nuevo cliente en un banco. El sistema se basa en software gratuito y abarcará capacidades similares a las desarrolladas en software propietario, como Informatica Data Quality. Para ello se propone desarrollar y desplegar un sistema de los datos, que de forma centralizada permitirá asegurar anticipadamente que la información proporcionada cumple con los requisitos definidos y los estándares de calidad del proceso de integración. La primera parte del proyecto constará en realizar un proceso de web scraping, para convertir una página web en un fichero de datos, ya que no existen grandes bases de datos públicas de apellidos y de nombres. Una vez teniendo estos ficheros, se habrá de pasar al tema de validar los datos del cliente. Es decir, que el cliente proporcione sus datos y validar como de ciertos son, si existen, si se ha equivocado al escribirlo o si no existen. Para ello se creará un modelo heurístico que indique el porcentaje de certeza, por ejemplo, si el apellido es 'García' pero lo ha escrito mal ('Garcia', 'Gacía') que también lo de como valido e indique que probabilidad existe de que el apellido sea García. Este modelo no solo se basará en programación en python sino en un análisis heurístico. El sistema presenta cuatro funcionalidades: ¿ Analítica: Consta de un cuadro de mandos en el que se podrá abordar y analizar los distintos aspectos de calidad de los datos. ¿ Monitorización: Comprobar mediante procesos de monitorización la performance de la arquitectura ¿ Normalización: Aplicar reglas y transformaciones para adaptar los datos y que así sigan el formato adecuado ¿ Validación: Donde el sistema genera la validación y almacena los resultados. es_ES
dc.description.abstract [EN] This project is about the implementation of a data validation system in a big data, designed for Inetum¿s company and used for mass processing but also real-time processing. A case of use would be to register a new client in a bank company. The system is about free software, and it will reach similar capabilities than proprietary software, such as Computing Data Quality. The proposal is to develop and to deploy a data system that in a centrally way, will allow to assure in advance that the information given fulfils the requests and the quality standards about the integration process. The first thing to do in this project will be a web scrapping process which will be essential to turn a web site into a data file as there are not big names and surname¿s public data bases. Once we have this data files, the next thing will be to validate the client¿s data. The client will have to provide his/her data and we will have to validate how certain it is, if it exists, if he/she has misspelled it or if it does not exist. This will be done with a heuristic model which indicates the certainty¿s percentage, for example, if the surname provided is `García¿ but he/she has misspelled it (`Garcia¿, `Gacía¿) it will be counted as valid and it will also include how probably is that the surname given is García. This model will be arranged using python but also using a heuristic model. The system has four functionalities: ¿ Analytic: Includes a console in which the different data quality aspects will be approached and analysed. ¿ Monitoring: Where we will check by monitoring processes the architecture¿s performance. ¿ Standardization: To apply rules and transformations to adapt the data to follow the correct format. ¿ Validation: Where the system generates the validation and stores the results. en_EN
dc.format.extent 50 es_ES
dc.language Español es_ES
dc.publisher Universitat Politècnica de València es_ES
dc.rights Reserva de todos los derechos es_ES
dc.subject Big data es_ES
dc.subject Web scraping es_ES
dc.subject Python es_ES
dc.subject Validador es_ES
dc.subject.classification ORGANIZACION DE EMPRESAS es_ES
dc.subject.other Grado en Ingeniería de Tecnologías y Servicios de Telecomunicación-Grau en Enginyeria de Tecnologies i Serveis de Telecomunicació es_ES
dc.title Sistema de validación de registros de datos en un big data diseñado para la empresa Inetum es_ES
dc.type Proyecto/Trabajo fin de carrera/grado es_ES
dc.rights.accessRights Cerrado es_ES
dc.contributor.affiliation Universitat Politècnica de València. Departamento de Organización de Empresas - Departament d'Organització d'Empreses es_ES
dc.contributor.affiliation Universitat Politècnica de València. Escuela Técnica Superior de Ingenieros de Telecomunicación - Escola Tècnica Superior d'Enginyers de Telecomunicació es_ES
dc.description.bibliographicCitation Romero García, S. (2021). Sistema de validación de registros de datos en un big data diseñado para la empresa Inetum. Universitat Politècnica de València. http://hdl.handle.net/10251/174435 es_ES
dc.description.accrualMethod TFGM es_ES
dc.relation.pasarela TFGM\145210 es_ES


Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem