CARACTERIZACIÓN DE LAS MÉTRICAS DE ESTABILIDAD DE FUENTE DE DATOS EN LOS REPOSITORIOS BIOMÉDICOS

Ferri Borredá, Pablo

Identificarse

Buscar en RiuNet

Listar

Todo RiuNet
Esta colección

Mi cuenta

Acceder

Estadísticas

Ver Estadísticas de uso

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

CARACTERIZACIÓN DE LAS MÉTRICAS DE ESTABILIDAD DE FUENTE DE DATOS EN LOS REPOSITORIOS BIOMÉDICOS

Mostrar el registro sencillo del ítem

Ficheros en el ítem

Nombre: Ferri Borredá - ...

Tamaño: 3.776Mb

Formato: PDF

Descripción: Memoria

Abrir

dc.contributor.advisor	Sáez Silvestre, Carlos	es_ES
dc.contributor.advisor	García Gómez, Juan Miguel	es_ES
dc.contributor.author	Ferri Borredá, Pablo	es_ES
dc.date.accessioned	2017-07-20T11:49:53Z
dc.date.available	2017-07-20T11:49:53Z
dc.date.created	2017-07-11
dc.date.issued	2017-07-20	es_ES
dc.identifier.uri	http://hdl.handle.net/10251/85553
dc.description.abstract	The degree of homogeneity among data distributions is a critical issue when reusing data integrated from different sources, since the introduction of undesired variabilities may lead to misleading results. Therefore, assessing this data source variability is of utmost importance to ensure a confident data reuse. In the biomedical field, this issue is even more critical, due to the risk of serious consequences if data is used improperly. Furthermore, in spite of the existence of classical statistical tools which attempt to deal with this task, there are still several aspects to be addressed due to inherent complexity of biomedical data, such as the intrinsic multimodality of data distributions. New statistical metrics have been recently developed to overcome this challenge, including the Global probabilistic deviation (GPD) and the Source probabilistic outlyingness (SPO). These metrics allow a multivariate analysis of data source variability without assuming any underlying distribution and without being restricted to certain types of data. However, when implementing them, users must decide among different options related to data preprocessing techniques, as data representation, reduction and normalization. This fact is not a limitation, but needs to be addressed. In this work, an in-depth study of the influence of preprocessing techniques over the multi-source variability metrics is performed, and procedures to overcome the problematic phenomena encountered are proposed and evaluated. Once understood the influence of the different settings, the potential biases introduced by pre-set factors to the GPD and SPO metrics, such as the number of sources or the number of data, are evaluated. Results of this assessment suggest the robustness of GPD and SPO to these factors. Finally, new procedures are proposed to find patterns in multi-source biomedical repositories and offer suggestions for data reuse based on the different data source variability structures. A new clustering algorithm for detecting data source variability patterns is proposed, and its evaluation over multi-source biomedical repositories has led to the discover of four main stability patterns: the Global stability pattern (GSP), the Local stability pattern (LSP), the Sparse stability pattern (SSP) and the Instability pattern (IP). These new procedures increase the added value of the multi-source variability framework for biomedical data characterization.	es_ES
dc.description.abstract	El grado de homogeneidad entre distribuciones de datos es una circunstancia crítica cuando se reutilizan datos provenientes de diferentes fuentes, ya que la introducción de variabilidades no deseadas podría conducir a resultados engañosos. Por lo tanto, evaluar esta variabilidad producida por la fuente de donde provienen los datos es clave de cara a asegurar una reutilización segura de los mismos. En el ámbito biomédico, este problema es aún más importante, debido al riesgo de consecuencias graves si los datos son utilizados de forma inadecuada. Además, a pesar de la existencia de herramientas estadísticas clásicas que intentar afrontar esta tarea, todavía existen varios aspectos que requieren ser tratados, fruto de la inherente complejidad de los datos biomédicos. Nuevas métricas estadísticas han sido recientemente desarrolladas para afrontar este reto, incluyendo la Global probabilistic deviation (GPD) y la Source probabilistic outlyingness (SPO). Estas métricas permiten un análisis multivariante de la variabilidad introducida por la fuente de datos sin asumir ninguna distribución subyacente y sin estar restringidas a ciertos tipos de datos. Sin embargo, a la hora de implementarlas, los usuarios tienen que decidir entre diferentes opciones relacionadas con técnicas de preprocesamiento. Esta circunstancia no supone una limitación, pero debe ser abordada. En este trabajo, se lleva a cabo un estudio en profundidad de la influencia de las técnicas de preprocesamiento sobre las métricas de variabilidad multi fuente, y se proponen procedimientos para superar los fenómenos adversos encontrados. Una vez entendida la influencia de las diferentes configuraciones, se evalúan los potenciales sesgos introducidos por factores preestablecidos, sobre la GPD y la SPO, tales como el número de fuentes o el número de datos. Los resultados de este análisis sugieren la robustez de GPD y SPO frente estos factores. Finalmente, se proponen nuevos procedimientos para encontrar patrones en repositorios biomédicos multi fuente, así como sugerencias para la reutilización de datos en función de las diferentes estructuras de variabilidad multi fuente encontradas. Se presenta un nuevo algoritmo de clustering para la detección de patrones de variabilidad multi fuente, y su evaluación sobre repositorios biomédicos multi fuente ha permitido descubrir cuatro patrones de estabilidad principales: el Global stability pattern (GSP), el Local stability pattern (LSP), el Sparse stability pattern (SSP) y el Instability pattern (IP). Estos nuevos procedimientos aumentan el valor añadido del marco teórico de variabilidad multi fuente para la caracterización de datos biomédicos.	es_ES
dc.description.abstract	El grau d’homogeneïtat entre distribucions de dades és una circumstància crítica quan es reutilitzen dades provinents de diferents fonts, ja que la introducció de variabilitats no desitjades podria conduir a resultats enganyosos. Per tant, avaluar aquesta variabilitat produïda per la font d’on provenen les dades esdevé clau de cara a assegurar una reutilització segura d’aquestes. En l’àmbit biomèdic, aquest problema és encara més important, a causa del risc de conseqüències greus si les dades son utilitzades de forma inadequada. A més, a pesar de l’existència d’eines estadístiques clàssiques que intentar afrontar aquesta tasca, encara existeixen diversos aspectes que requereixen ser tractats i que són fruit de la inherent complexitat de les dades biomèdiques. Noves mètriques estadístiques han sigut recentment desenvolupades per a afrontar aquest repte, incloent la Global probabilistic deviation (GPD) i la Source probabilistic outlyingness (SPO). Aquestes mètriques permeten una anàlisi multivariant de la variabilitat de la font de dades sense assumir cap distribució subjacent i sense estar restringides a certs tipus de dades. Tanmateix, a l’hora d’implementar-les, els usuaris han de decidir entre diferents opcions relacionades amb tècniques de preprocessament. Aquesta circumstància no suposa una limitació, però requereix ser tractada. En aquest treball, es du a terme un estudi en profunditat de la influència de les tècniques de preprocessament sobre les mètriques de variabilitat multi font, i es proposen procediments per a superar els fenòmens adversos trobats. Una vegada entesa la influència de les diferents configuracions, s'avaluen els potencials biaixos introduïts per factors preestablerts, sobre la GPD i la SPO, com ara el nombre de fonts o el nombre de dades. Els resultats d'aquesta anàlisis suggereixen la robustesa de GPD i SPO front aquests factors. Finalment, es proposen nous procediments per a trobar patrons en repositoris biomèdics multi font, així com suggeriments per a la reutilització de dades en funció de les diferents estructures de variabilitat multi font encontrades. Es presenta un nou algorisme d’anàlisi clúster per a detectar patrons de variabilitat multi font, i la seva avaluació sobre repositoris biomèdics multi font ha permès descobrir quatre patrons d'estabilitat principals: el Global stability pattern (GSP), el Local stability pattern (LSP), el Sparse stability pattern (SSP) i el Instability pattern (IP). Aquests nous procediments augmenten el valor afegit del marc teòric de variabilitat multi font per a la caracterització de dades biomèdiques.	es_ES
dc.language	Inglés	es_ES
dc.publisher	Universitat Politècnica de València	es_ES
dc.rights	Reserva de todos los derechos	es_ES
dc.subject	Data science	es_ES
dc.subject	Data quality	es_ES
dc.subject	Data variability	es_ES
dc.subject	Integrated data repositories	es_ES
dc.subject	Density estimation	es_ES
dc.subject	Curse of dimensionality	es_ES
dc.subject	Multiple regression	es_ES
dc.subject	Clustering analysis.	es_ES
dc.subject	Ciencia de datos	es_ES
dc.subject	Calidad de datos	es_ES
dc.subject	Variabilidad de datos	es_ES
dc.subject	Repositorios de datos integrados	es_ES
dc.subject	Estimación de densidad	es_ES
dc.subject	Maldición de la dimensionalidad	es_ES
dc.subject	Regresión múltiple	es_ES
dc.subject	Clustering.	es_ES
dc.subject.classification	ESTADISTICA E INVESTIGACION OPERATIVA	es_ES
dc.subject.classification	FISICA APLICADA	es_ES
dc.subject.other	Grado en Ingeniería Biomédica-Grau en Enginyeria Biomèdica	es_ES
dc.title	CARACTERIZACIÓN DE LAS MÉTRICAS DE ESTABILIDAD DE FUENTE DE DATOS EN LOS REPOSITORIOS BIOMÉDICOS	es_ES
dc.type	Proyecto/Trabajo fin de carrera/grado	es_ES
dc.rights.accessRights	Abierto	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Escuela Técnica Superior de Ingenieros Industriales - Escola Tècnica Superior d'Enginyers Industrials	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Departamento de Física Aplicada - Departament de Física Aplicada	es_ES
dc.description.bibliographicCitation	Ferri Borredá, P. (2017). CARACTERIZACIÓN DE LAS MÉTRICAS DE ESTABILIDAD DE FUENTE DE DATOS EN LOS REPOSITORIOS BIOMÉDICOS. http://hdl.handle.net/10251/85553.	es_ES
dc.description.accrualMethod	TFGM	es_ES
dc.relation.pasarela	TFGM\66727	es_ES

Este ítem aparece en la(s) siguiente(s) colección(ones)

ETSII - Trabajos académicos [10404]
Escuela Técnica Superior de Ingenieros Industriales

Mostrar el registro sencillo del ítem

CARACTERIZACIÓN DE LAS MÉTRICAS DE ESTABILIDAD DE FUENTE DE DATOS EN LOS REPOSITORIOS BIOMÉDICOS

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Buscar en RiuNet

Listar

Todo RiuNet

Esta colección

Mi cuenta

Estadísticas

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

CARACTERIZACIÓN DE LAS MÉTRICAS DE ESTABILIDAD DE FUENTE DE DATOS EN LOS REPOSITORIOS BIOMÉDICOS

Ficheros en el ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)