- -

CARACTERIZACIÓN DE LAS MÉTRICAS DE ESTABILIDAD DE FUENTE DE DATOS EN LOS REPOSITORIOS BIOMÉDICOS

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Compartir/Enviar a

Citas

Estadísticas

  • Estadisticas de Uso

CARACTERIZACIÓN DE LAS MÉTRICAS DE ESTABILIDAD DE FUENTE DE DATOS EN LOS REPOSITORIOS BIOMÉDICOS

Mostrar el registro sencillo del ítem

Ficheros en el ítem

dc.contributor.advisor Sáez Silvestre, Carlos es_ES
dc.contributor.advisor García Gómez, Juan Miguel es_ES
dc.contributor.author Ferri Borredá, Pablo es_ES
dc.date.accessioned 2017-07-20T11:49:53Z
dc.date.available 2017-07-20T11:49:53Z
dc.date.created 2017-07-11
dc.date.issued 2017-07-20 es_ES
dc.identifier.uri http://hdl.handle.net/10251/85553
dc.description.abstract The degree of homogeneity among data distributions is a critical issue when reusing data integrated from different sources, since the introduction of undesired variabilities may lead to misleading results. Therefore, assessing this data source variability is of utmost importance to ensure a confident data reuse. In the biomedical field, this issue is even more critical, due to the risk of serious consequences if data is used improperly. Furthermore, in spite of the existence of classical statistical tools which attempt to deal with this task, there are still several aspects to be addressed due to inherent complexity of biomedical data, such as the intrinsic multimodality of data distributions. New statistical metrics have been recently developed to overcome this challenge, including the Global probabilistic deviation (GPD) and the Source probabilistic outlyingness (SPO). These metrics allow a multivariate analysis of data source variability without assuming any underlying distribution and without being restricted to certain types of data. However, when implementing them, users must decide among different options related to data preprocessing techniques, as data representation, reduction and normalization. This fact is not a limitation, but needs to be addressed. In this work, an in-depth study of the influence of preprocessing techniques over the multi-source variability metrics is performed, and procedures to overcome the problematic phenomena encountered are proposed and evaluated. Once understood the influence of the different settings, the potential biases introduced by pre-set factors to the GPD and SPO metrics, such as the number of sources or the number of data, are evaluated. Results of this assessment suggest the robustness of GPD and SPO to these factors. Finally, new procedures are proposed to find patterns in multi-source biomedical repositories and offer suggestions for data reuse based on the different data source variability structures. A new clustering algorithm for detecting data source variability patterns is proposed, and its evaluation over multi-source biomedical repositories has led to the discover of four main stability patterns: the Global stability pattern (GSP), the Local stability pattern (LSP), the Sparse stability pattern (SSP) and the Instability pattern (IP). These new procedures increase the added value of the multi-source variability framework for biomedical data characterization. es_ES
dc.description.abstract El grado de homogeneidad entre distribuciones de datos es una circunstancia crítica cuando se reutilizan datos provenientes de diferentes fuentes, ya que la introducción de variabilidades no deseadas podría conducir a resultados engañosos. Por lo tanto, evaluar esta variabilidad producida por la fuente de donde provienen los datos es clave de cara a asegurar una reutilización segura de los mismos. En el ámbito biomédico, este problema es aún más importante, debido al riesgo de consecuencias graves si los datos son utilizados de forma inadecuada. Además, a pesar de la existencia de herramientas estadísticas clásicas que intentar afrontar esta tarea, todavía existen varios aspectos que requieren ser tratados, fruto de la inherente complejidad de los datos biomédicos. Nuevas métricas estadísticas han sido recientemente desarrolladas para afrontar este reto, incluyendo la Global probabilistic deviation (GPD) y la Source probabilistic outlyingness (SPO). Estas métricas permiten un análisis multivariante de la variabilidad introducida por la fuente de datos sin asumir ninguna distribución subyacente y sin estar restringidas a ciertos tipos de datos. Sin embargo, a la hora de implementarlas, los usuarios tienen que decidir entre diferentes opciones relacionadas con técnicas de preprocesamiento. Esta circunstancia no supone una limitación, pero debe ser abordada. En este trabajo, se lleva a cabo un estudio en profundidad de la influencia de las técnicas de preprocesamiento sobre las métricas de variabilidad multi fuente, y se proponen procedimientos para superar los fenómenos adversos encontrados. Una vez entendida la influencia de las diferentes configuraciones, se evalúan los potenciales sesgos introducidos por factores preestablecidos, sobre la GPD y la SPO, tales como el número de fuentes o el número de datos. Los resultados de este análisis sugieren la robustez de GPD y SPO frente estos factores. Finalmente, se proponen nuevos procedimientos para encontrar patrones en repositorios biomédicos multi fuente, así como sugerencias para la reutilización de datos en función de las diferentes estructuras de variabilidad multi fuente encontradas. Se presenta un nuevo algoritmo de clustering para la detección de patrones de variabilidad multi fuente, y su evaluación sobre repositorios biomédicos multi fuente ha permitido descubrir cuatro patrones de estabilidad principales: el Global stability pattern (GSP), el Local stability pattern (LSP), el Sparse stability pattern (SSP) y el Instability pattern (IP). Estos nuevos procedimientos aumentan el valor añadido del marco teórico de variabilidad multi fuente para la caracterización de datos biomédicos. es_ES
dc.description.abstract El grau d’homogeneïtat entre distribucions de dades és una circumstància crítica quan es reutilitzen dades provinents de diferents fonts, ja que la introducció de variabilitats no desitjades podria conduir a resultats enganyosos. Per tant, avaluar aquesta variabilitat produïda per la font d’on provenen les dades esdevé clau de cara a assegurar una reutilització segura d’aquestes. En l’àmbit biomèdic, aquest problema és encara més important, a causa del risc de conseqüències greus si les dades son utilitzades de forma inadequada. A més, a pesar de l’existència d’eines estadístiques clàssiques que intentar afrontar aquesta tasca, encara existeixen diversos aspectes que requereixen ser tractats i que són fruit de la inherent complexitat de les dades biomèdiques. Noves mètriques estadístiques han sigut recentment desenvolupades per a afrontar aquest repte, incloent la Global probabilistic deviation (GPD) i la Source probabilistic outlyingness (SPO). Aquestes mètriques permeten una anàlisi multivariant de la variabilitat de la font de dades sense assumir cap distribució subjacent i sense estar restringides a certs tipus de dades. Tanmateix, a l’hora d’implementar-les, els usuaris han de decidir entre diferents opcions relacionades amb tècniques de preprocessament. Aquesta circumstància no suposa una limitació, però requereix ser tractada. En aquest treball, es du a terme un estudi en profunditat de la influència de les tècniques de preprocessament sobre les mètriques de variabilitat multi font, i es proposen procediments per a superar els fenòmens adversos trobats. Una vegada entesa la influència de les diferents configuracions, s'avaluen els potencials biaixos introduïts per factors preestablerts, sobre la GPD i la SPO, com ara el nombre de fonts o el nombre de dades. Els resultats d'aquesta anàlisis suggereixen la robustesa de GPD i SPO front aquests factors. Finalment, es proposen nous procediments per a trobar patrons en repositoris biomèdics multi font, així com suggeriments per a la reutilització de dades en funció de les diferents estructures de variabilitat multi font encontrades. Es presenta un nou algorisme d’anàlisi clúster per a detectar patrons de variabilitat multi font, i la seva avaluació sobre repositoris biomèdics multi font ha permès descobrir quatre patrons d'estabilitat principals: el Global stability pattern (GSP), el Local stability pattern (LSP), el Sparse stability pattern (SSP) i el Instability pattern (IP). Aquests nous procediments augmenten el valor afegit del marc teòric de variabilitat multi font per a la caracterització de dades biomèdiques. es_ES
dc.language Inglés es_ES
dc.publisher Universitat Politècnica de València es_ES
dc.rights Reserva de todos los derechos es_ES
dc.subject Data science es_ES
dc.subject Data quality es_ES
dc.subject Data variability es_ES
dc.subject Integrated data repositories es_ES
dc.subject Density estimation es_ES
dc.subject Curse of dimensionality es_ES
dc.subject Multiple regression es_ES
dc.subject Clustering analysis. es_ES
dc.subject Ciencia de datos es_ES
dc.subject Calidad de datos es_ES
dc.subject Variabilidad de datos es_ES
dc.subject Repositorios de datos integrados es_ES
dc.subject Estimación de densidad es_ES
dc.subject Maldición de la dimensionalidad es_ES
dc.subject Regresión múltiple es_ES
dc.subject Clustering. es_ES
dc.subject.classification ESTADISTICA E INVESTIGACION OPERATIVA es_ES
dc.subject.classification FISICA APLICADA es_ES
dc.subject.other Grado en Ingeniería Biomédica-Grau en Enginyeria Biomèdica es_ES
dc.title CARACTERIZACIÓN DE LAS MÉTRICAS DE ESTABILIDAD DE FUENTE DE DATOS EN LOS REPOSITORIOS BIOMÉDICOS es_ES
dc.type Proyecto/Trabajo fin de carrera/grado es_ES
dc.rights.accessRights Abierto es_ES
dc.contributor.affiliation Universitat Politècnica de València. Escuela Técnica Superior de Ingenieros Industriales - Escola Tècnica Superior d'Enginyers Industrials es_ES
dc.contributor.affiliation Universitat Politècnica de València. Departamento de Física Aplicada - Departament de Física Aplicada es_ES
dc.description.bibliographicCitation Ferri Borredá, P. (2017). CARACTERIZACIÓN DE LAS MÉTRICAS DE ESTABILIDAD DE FUENTE DE DATOS EN LOS REPOSITORIOS BIOMÉDICOS. http://hdl.handle.net/10251/85553. es_ES
dc.description.accrualMethod TFGM es_ES
dc.relation.pasarela TFGM\66727 es_ES


Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem