[CA] El desenvolupament i l'expansió de les noves tecnologies plantegen un nou repte, el de continuar amb el progrés tecnologic alhora que es garanteix la privacitatdels seus usuaris. Aquí és on entra en joc l'anonimització; ...[+]
[CA] El desenvolupament i l'expansió de les noves tecnologies plantegen un nou repte, el de continuar amb el progrés tecnologic alhora que es garanteix la privacitatdels seus usuaris. Aquí és on entra en joc l'anonimització; aquest procés serveix per protegir les dades personals sensibles mitjarn;ant diferents tecniques. L' objectiu d' aquest treball final de grau és el desenvolupament d'un model capa<; d'anonimitzar text no estructurat adaptant-se a les necessitats de l'usuari.
Per desenvolupar aquest treball s'han utilitzat models de reconeixement d'entitats pre-entrenats de spaCy. Per al fine tunning dels models s'han utilitzat principalment les dades pre-anotades del projecte wikiner. A banda dels reentrenaments, també s'ha afegit al model la possibilitat de personalitzar-lo a través de diferents opcions com l'anonimització vía expressions regulars o l'anonimització for<;ada a través de llistes d'entitats, entre d'altres opcions.
Finalment, s'ha realitzat una analisi dels resultats obtinguts avaluant la correcta anonimització de diferents textos i les millares respecte al model base de spaCy.
[-]
[ES] El desarrollo y la expansión de las nuevas tecnologías plantean un nuevo reto, el de continuar con el progreso tecnológico al tiempo que se garantiza la privacidad de sus usuarios. Aquí es donde entra en juego la ...[+]
[ES] El desarrollo y la expansión de las nuevas tecnologías plantean un nuevo reto, el de continuar con el progreso tecnológico al tiempo que se garantiza la privacidad de sus usuarios. Aquí es donde entra en juego la anonimización. Este proceso sirve para proteger los datos personales sensibles mediante diferentes técnicas. El objetivo de este trabajo final de grado es el desarrollo de un modelo capaz de anonimizar texto no estructurado adaptándose a las necesidades de un usuario.
Para el desarrollo de este trabajo se han utilizado modelos de reconocimiento de entidades pre-entrenados de spaCy. Para el fine tunning de los modelos se han utilizado principalmente los datos anotados del proyecto wikiner, incluyendo anotaciones de los mismos datos de nuevas etiquetas, como profesión o nacionalidad. A parte de los reentrenamientos también se ha añadido al modelo la posibilidad de personalizarlo a través de diferentes opciones como la anonimización vía expresiones regulares o la anonimización forzada a través de listas de entidades, entre otras opciones.
Por último, se ha realizado un análisis de los resultados obtenidos evaluando la correcta anonimización de diferentes textos y las mejoras respecto al modelo base de spaCy
[-]
[EN] The development and expansion of new technologies pose a new challenge, that of continuing technological progress while ensuring the privacy of its users. This is where anonymization comes into play, this process ...[+]
[EN] The development and expansion of new technologies pose a new challenge, that of continuing technological progress while ensuring the privacy of its users. This is where anonymization comes into play, this process serves to protect sensitive personal data using different techniques. The objective of this final degree work is the development of a model capable of anonymizing unstructured text adapting to the needs of a user.
Por the development of this work, pre-trained entity recognition models of spaCy have been used. Por the fine tuning of the models we mainly used the annotated data from the wikiner project. Apart from the re-training, we have also added to the model the possibility of customizing it through different options such as anonymization vía regular expressions or forced anonymization through lists of entities, among other options.
Pinally, an analysis of the results obtained has been carried out, evaluating the correct anonymization of different texts and the improvements with respect to the spaCy base model.
[-]
|