CARACTERIZACIÓN DE LAS MÉTRICAS DE ESTABILIDAD DE FUENTE DE DATOS EN LOS REPOSITORIOS BIOMÉDICOS

Ferri Borredá, Pablo

Buscar en RiuNet

Listar

Todo RiuNet
Esta colección

Mi cuenta

Acceder

Estadísticas

Ver Estadísticas de uso

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Desde el lunes 3 y hasta el jueves 20 de marzo, RiuNet funcionará en modo de solo lectura a causa de su actualización a una nueva versión.

CARACTERIZACIÓN DE LAS MÉTRICAS DE ESTABILIDAD DE FUENTE DE DATOS EN LOS REPOSITORIOS BIOMÉDICOS

Mostrar el registro completo del ítem

Ferri Borredá, P. (2017). CARACTERIZACIÓN DE LAS MÉTRICAS DE ESTABILIDAD DE FUENTE DE DATOS EN LOS REPOSITORIOS BIOMÉDICOS. http://hdl.handle.net/10251/85553.

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10251/85553

Ficheros en el ítem

Nombre: Ferri Borredá - ...

Tamaño: 3.776Mb

Formato: PDF

Descripción: Memoria

Abrir/Preview

Metadatos del ítem

Título:

CARACTERIZACIÓN DE LAS MÉTRICAS DE ESTABILIDAD DE FUENTE DE DATOS EN LOS REPOSITORIOS BIOMÉDICOS

Autor:

Ferri Borredá, Pablo

Director(es):

Sáez Silvestre, Carlos

García Gómez, Juan Miguel

Entidad UPV:

Universitat Politècnica de València. Escuela Técnica Superior de Ingenieros Industriales - Escola Tècnica Superior d'Enginyers Industrials
Universitat Politècnica de València. Departamento de Física Aplicada - Departament de Física Aplicada

Fecha acto/lectura:

2017-07-11

Fecha difusión:

2017-07-20

Resumen:

The degree of homogeneity among data distributions is a critical issue when reusing data integrated from different sources, since the introduction of undesired variabilities may lead to misleading results. Therefore, assessing this data source variability is of utmost importance to ensure a confident data reuse. In the biomedical field, this issue is even more critical, due to the risk of serious consequences if data is used improperly. Furthermore, in spite of the existence of classical statistical tools which attempt to deal with this task, there are still several aspects to be addressed due to inherent complexity of biomedical data, such as the intrinsic multimodality of data distributions. New statistical metrics have been recently developed to overcome this challenge, including the Global probabilistic deviation (GPD) and the Source probabilistic outlyingness (SPO). These metrics allow a multivariate analysis of data source variability without assuming any underlying distribution and without being restricted to certain types of data. However, when implementing them, users must decide among different options related to data preprocessing techniques, as data representation, reduction and normalization. This fact is not a limitation, but needs to be addressed. In this work, an in-depth study of the influence of preprocessing techniques over the multi-source variability metrics is performed, and procedures to overcome the problematic phenomena encountered are proposed and evaluated. Once understood the influence of the different settings, the potential biases introduced by pre-set factors to the GPD and SPO metrics, such as the number of sources or the number of data, are evaluated. Results of this assessment suggest the robustness of GPD and SPO to these factors. Finally, new procedures are proposed to find patterns in multi-source biomedical repositories and offer suggestions for data reuse based on the different data source variability structures. A new clustering algorithm for detecting data source variability patterns is proposed, and its evaluation over multi-source biomedical repositories has led to the discover of four main stability patterns: the Global stability pattern (GSP), the Local stability pattern (LSP), the Sparse stability pattern (SSP) and the Instability pattern (IP). These new procedures increase the added value of the multi-source variability framework for biomedical data characterization. [-]

El grado de homogeneidad entre distribuciones de datos es una circunstancia crítica cuando se reutilizan datos provenientes de diferentes fuentes, ya que la introducción de variabilidades no deseadas podría conducir a resultados engañosos. Por lo tanto, evaluar esta variabilidad producida por la fuente de donde provienen los datos es clave de cara a asegurar una reutilización segura de los mismos. En el ámbito biomédico, este problema es aún más importante, debido al riesgo de consecuencias graves si los datos son utilizados de forma inadecuada. Además, a pesar de la existencia de herramientas estadísticas clásicas que intentar afrontar esta tarea, todavía existen varios aspectos que requieren ser tratados, fruto de la inherente complejidad de los datos biomédicos. Nuevas métricas estadísticas han sido recientemente desarrolladas para afrontar este reto, incluyendo la Global probabilistic deviation (GPD) y la Source probabilistic outlyingness (SPO). Estas métricas permiten un análisis multivariante de la variabilidad introducida por la fuente de datos sin asumir ninguna distribución subyacente y sin estar restringidas a ciertos tipos de datos. Sin embargo, a la hora de implementarlas, los usuarios tienen que decidir entre diferentes opciones relacionadas con técnicas de preprocesamiento. Esta circunstancia no supone una limitación, pero debe ser abordada. En este trabajo, se lleva a cabo un estudio en profundidad de la influencia de las técnicas de preprocesamiento sobre las métricas de variabilidad multi fuente, y se proponen procedimientos para superar los fenómenos adversos encontrados. Una vez entendida la influencia de las diferentes configuraciones, se evalúan los potenciales sesgos introducidos por factores preestablecidos, sobre la GPD y la SPO, tales como el número de fuentes o el número de datos. Los resultados de este análisis sugieren la robustez de GPD y SPO frente estos factores. Finalmente, se proponen nuevos procedimientos para encontrar patrones en repositorios biomédicos multi fuente, así como sugerencias para la reutilización de datos en función de las diferentes estructuras de variabilidad multi fuente encontradas. Se presenta un nuevo algoritmo de clustering para la detección de patrones de variabilidad multi fuente, y su evaluación sobre repositorios biomédicos multi fuente ha permitido descubrir cuatro patrones de estabilidad principales: el Global stability pattern (GSP), el Local stability pattern (LSP), el Sparse stability pattern (SSP) y el Instability pattern (IP). Estos nuevos procedimientos aumentan el valor añadido del marco teórico de variabilidad multi fuente para la caracterización de datos biomédicos. [-]

El grau d’homogeneïtat entre distribucions de dades és una circumstància crítica quan es reutilitzen dades provinents de diferents fonts, ja que la introducció de variabilitats no desitjades podria conduir a resultats enganyosos. Per tant, avaluar aquesta variabilitat produïda per la font d’on provenen les dades esdevé clau de cara a assegurar una reutilització segura d’aquestes. En l’àmbit biomèdic, aquest problema és encara més important, a causa del risc de conseqüències greus si les dades son utilitzades de forma inadequada. A més, a pesar de l’existència d’eines estadístiques clàssiques que intentar afrontar aquesta tasca, encara existeixen diversos aspectes que requereixen ser tractats i que són fruit de la inherent complexitat de les dades biomèdiques. Noves mètriques estadístiques han sigut recentment desenvolupades per a afrontar aquest repte, incloent la Global probabilistic deviation (GPD) i la Source probabilistic outlyingness (SPO). Aquestes mètriques permeten una anàlisi multivariant de la variabilitat de la font de dades sense assumir cap distribució subjacent i sense estar restringides a certs tipus de dades. Tanmateix, a l’hora d’implementar-les, els usuaris han de decidir entre diferents opcions relacionades amb tècniques de preprocessament. Aquesta circumstància no suposa una limitació, però requereix ser tractada. En aquest treball, es du a terme un estudi en profunditat de la influència de les tècniques de preprocessament sobre les mètriques de variabilitat multi font, i es proposen procediments per a superar els fenòmens adversos trobats. Una vegada entesa la influència de les diferents configuracions, s'avaluen els potencials biaixos introduïts per factors preestablerts, sobre la GPD i la SPO, com ara el nombre de fonts o el nombre de dades. Els resultats d'aquesta anàlisis suggereixen la robustesa de GPD i SPO front aquests factors. Finalment, es proposen nous procediments per a trobar patrons en repositoris biomèdics multi font, així com suggeriments per a la reutilització de dades en funció de les diferents estructures de variabilitat multi font encontrades. Es presenta un nou algorisme d’anàlisi clúster per a detectar patrons de variabilitat multi font, i la seva avaluació sobre repositoris biomèdics multi font ha permès descobrir quatre patrons d'estabilitat principals: el Global stability pattern (GSP), el Local stability pattern (LSP), el Sparse stability pattern (SSP) i el Instability pattern (IP). Aquests nous procediments augmenten el valor afegit del marc teòric de variabilitat multi font per a la caracterització de dades biomèdiques. [-]

Palabras clave:

Data science , Data quality , Data variability , Integrated data repositories , Density estimation , Curse of dimensionality , Multiple regression , Clustering analysis. , Ciencia de datos , Calidad de datos , Variabilidad de datos , Repositorios de datos integrados , Estimación de densidad , Maldición de la dimensionalidad , Regresión múltiple , Clustering.

Derechos de uso:

Reserva de todos los derechos

Editorial:

Universitat Politècnica de València

Titulación:

Grado en Ingeniería Biomédica-Grau en Enginyeria Biomèdica

Tipo:

Proyecto/Trabajo fin de carrera/grado

recommendations

Este ítem aparece en la(s) siguiente(s) colección(ones)

ETSII - Trabajos académicos [10539]
Escuela Técnica Superior de Ingenieros Industriales

Mostrar el registro completo del ítem

CARACTERIZACIÓN DE LAS MÉTRICAS DE ESTABILIDAD DE FUENTE DE DATOS EN LOS REPOSITORIOS BIOMÉDICOS

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Buscar en RiuNet

Listar

Todo RiuNet

Esta colección

Mi cuenta

Estadísticas

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

CARACTERIZACIÓN DE LAS MÉTRICAS DE ESTABILIDAD DE FUENTE DE DATOS EN LOS REPOSITORIOS BIOMÉDICOS

Ficheros en el ítem

Metadatos del ítem

recommendations

Este ítem aparece en la(s) siguiente(s) colección(ones)