Abstract:
|
The degree of homogeneity among data distributions is a critical issue when reusing data integrated from different sources, since the introduction of undesired variabilities may lead to misleading results. Therefore, ...[+]
The degree of homogeneity among data distributions is a critical issue when reusing data integrated from different sources, since the introduction of undesired variabilities may lead to misleading results. Therefore, assessing this data source variability is of utmost importance to ensure a confident data reuse.
In the biomedical field, this issue is even more critical, due to the risk of serious consequences if data is used improperly. Furthermore, in spite of the existence of classical statistical tools which attempt to deal with this task, there are still several aspects to be addressed due to inherent complexity of biomedical data, such as the intrinsic multimodality of data distributions.
New statistical metrics have been recently developed to overcome this challenge, including the Global probabilistic deviation (GPD) and the Source probabilistic outlyingness (SPO). These metrics allow a multivariate analysis of data source variability without assuming any underlying distribution and without being restricted to certain types of data.
However, when implementing them, users must decide among different options related to data preprocessing techniques, as data representation, reduction and normalization. This fact is not a limitation, but needs to be addressed. In this work, an in-depth study of the influence of preprocessing techniques over the multi-source variability metrics is performed, and procedures to overcome the problematic phenomena encountered are proposed and evaluated.
Once understood the influence of the different settings, the potential biases introduced by pre-set factors to the GPD and SPO metrics, such as the number of sources or the number of data, are evaluated. Results of this assessment suggest the robustness of GPD and SPO to these factors.
Finally, new procedures are proposed to find patterns in multi-source biomedical repositories and offer suggestions for data reuse based on the different data source variability structures. A new clustering algorithm for detecting data source variability patterns is proposed, and its evaluation over multi-source biomedical repositories has led to the discover of four main stability patterns: the Global stability pattern (GSP), the Local stability pattern (LSP), the Sparse stability pattern (SSP) and the Instability pattern (IP). These new procedures increase the added value of the multi-source variability framework for biomedical data characterization.
[-]
El grado de homogeneidad entre distribuciones de datos es una circunstancia crítica cuando se reutilizan datos provenientes de diferentes fuentes, ya que la introducción de variabilidades no deseadas podría conducir a ...[+]
El grado de homogeneidad entre distribuciones de datos es una circunstancia crítica cuando se reutilizan datos provenientes de diferentes fuentes, ya que la introducción de variabilidades no deseadas podría conducir a resultados engañosos. Por lo tanto, evaluar esta variabilidad producida por la fuente de donde provienen los datos es clave de cara a asegurar una reutilización segura de los mismos.
En el ámbito biomédico, este problema es aún más importante, debido al riesgo de consecuencias graves si los datos son utilizados de forma inadecuada. Además, a pesar de la existencia de herramientas estadísticas clásicas que intentar afrontar esta tarea, todavía existen varios aspectos que requieren ser tratados, fruto de la inherente complejidad de los datos biomédicos.
Nuevas métricas estadísticas han sido recientemente desarrolladas para afrontar este reto, incluyendo la Global probabilistic deviation (GPD) y la Source probabilistic outlyingness (SPO). Estas métricas permiten un análisis multivariante de la variabilidad introducida por la fuente de datos sin asumir ninguna distribución subyacente y sin estar restringidas a ciertos tipos de datos.
Sin embargo, a la hora de implementarlas, los usuarios tienen que decidir entre diferentes opciones relacionadas con técnicas de preprocesamiento. Esta circunstancia no supone una limitación, pero debe ser abordada. En este trabajo, se lleva a cabo un estudio en profundidad de la influencia de las técnicas de preprocesamiento sobre las métricas de variabilidad multi fuente, y se proponen procedimientos para superar los fenómenos adversos encontrados.
Una vez entendida la influencia de las diferentes configuraciones, se evalúan los potenciales sesgos introducidos por factores preestablecidos, sobre la GPD y la SPO, tales como el número de fuentes o el número de datos. Los resultados de este análisis sugieren la robustez de GPD y SPO frente estos factores.
Finalmente, se proponen nuevos procedimientos para encontrar patrones en repositorios biomédicos multi fuente, así como sugerencias para la reutilización de datos en función de las diferentes estructuras de variabilidad multi fuente encontradas. Se presenta un nuevo algoritmo de clustering para la detección de patrones de variabilidad multi fuente, y su evaluación sobre repositorios biomédicos multi fuente ha permitido descubrir cuatro patrones de estabilidad principales: el Global stability pattern (GSP), el Local stability pattern (LSP), el Sparse stability pattern (SSP) y el Instability pattern (IP). Estos nuevos procedimientos aumentan el valor añadido del marco teórico de variabilidad multi fuente para la caracterización de datos biomédicos.
[-]
El grau d’homogeneïtat entre distribucions de dades és una circumstància crítica
quan es reutilitzen dades provinents de diferents fonts, ja que la introducció de
variabilitats no desitjades podria conduir a resultats ...[+]
El grau d’homogeneïtat entre distribucions de dades és una circumstància crítica
quan es reutilitzen dades provinents de diferents fonts, ja que la introducció de
variabilitats no desitjades podria conduir a resultats enganyosos. Per tant, avaluar aquesta
variabilitat produïda per la font d’on provenen les dades esdevé clau de cara a assegurar
una reutilització segura d’aquestes.
En l’àmbit biomèdic, aquest problema és encara més important, a causa del risc
de conseqüències greus si les dades son utilitzades de forma inadequada. A més, a pesar
de l’existència d’eines estadístiques clàssiques que intentar afrontar aquesta tasca, encara
existeixen diversos aspectes que requereixen ser tractats i que són fruit de la inherent
complexitat de les dades biomèdiques.
Noves mètriques estadístiques han sigut recentment desenvolupades per a afrontar
aquest repte, incloent la Global probabilistic deviation (GPD) i la Source probabilistic
outlyingness (SPO). Aquestes mètriques permeten una anàlisi multivariant de la
variabilitat de la font de dades sense assumir cap distribució subjacent i sense estar
restringides a certs tipus de dades.
Tanmateix, a l’hora d’implementar-les, els usuaris han de decidir entre diferents
opcions relacionades amb tècniques de preprocessament. Aquesta circumstància no
suposa una limitació, però requereix ser tractada. En aquest treball, es du a terme un estudi
en profunditat de la influència de les tècniques de preprocessament sobre les mètriques
de variabilitat multi font, i es proposen procediments per a superar els fenòmens adversos
trobats.
Una vegada entesa la influència de les diferents configuracions, s'avaluen els
potencials biaixos introduïts per factors preestablerts, sobre la GPD i la SPO, com ara el
nombre de fonts o el nombre de dades. Els resultats d'aquesta anàlisis suggereixen la
robustesa de GPD i SPO front aquests factors.
Finalment, es proposen nous procediments per a trobar patrons en repositoris
biomèdics multi font, així com suggeriments per a la reutilització de dades en funció de
les diferents estructures de variabilitat multi font encontrades. Es presenta un nou
algorisme d’anàlisi clúster per a detectar patrons de variabilitat multi font, i la seva
avaluació sobre repositoris biomèdics multi font ha permès descobrir quatre patrons
d'estabilitat principals: el Global stability pattern (GSP), el Local stability pattern (LSP),
el Sparse stability pattern (SSP) i el Instability pattern (IP). Aquests nous procediments
augmenten el valor afegit del marc teòric de variabilitat multi font per a la caracterització
de dades biomèdiques.
[-]
|