- -

Combinación de modelos heterogéneos para la identificación de variantes genéticas implicadas en la diabetes mellitus tipo 2 (DT2)

RiuNet: Repositori Institucional de la Universitat Politècnica de Valencià

Compartir/Enviar a

Cites

Estadístiques

  • Estadisticas de Uso

Combinación de modelos heterogéneos para la identificación de variantes genéticas implicadas en la diabetes mellitus tipo 2 (DT2)

Mostra el registre d'item simple

Fitxers d'aquest element

dc.contributor.advisor Navarro Cerdán, José Ramón es_ES
dc.contributor.advisor Arnal Benedicto, Laura es_ES
dc.contributor.author Moltó Moltó, Jorge Ramón es_ES
dc.date.accessioned 2023-10-05T08:53:10Z
dc.date.available 2023-10-05T08:53:10Z
dc.date.created 2023-09-18
dc.date.issued 2023-10-05 es_ES
dc.identifier.uri http://hdl.handle.net/10251/197604
dc.description.abstract [ES] La genómica es la disciplina que estudia el genoma humano. Uno de los principales desafíos es: la detección de variables genéticas relevantes que determinen un genotipo o enfermedad. En este ámbito de estudio nos encontramos con una peculiaridad en los datos: la cantidad de muestras es limitada debido a los costos y la variabilidad de cada observación es muy elevada debido a la naturaleza del genoma humano. Para abordar esta problemática, encontrar las variables genómicas relevantes para una enfermedad, utilizaremos un algoritmo ensemble. Aquí, la selección de variables se rige por el consenso de múltiples ejecuciones de modelos de aprendizaje aplicados a diversas particiones de los datos. Sobre cada una de las particiones un inductor realizará una selección de características basándose en una variable objetivo, que en el caso que nos ocupa sería detectar si se trata de un caso o un control. Cada una de estas selecciones se consensúa en base a un esquema de votos donde se espera que la relevancia de una variable se vea reflejada en el número de votos obtenidos a través de la suma de las veces que una variable ha sido seleccionada. Este algoritmo esta basado en el uso de modelos heterogéneos, por tanto el rendimiento dependerá de la capacidad del algoritmo de machine learning para adaptarse a la distribución condicional real de los genes implicados respecto a la presencia o no de la enfermedad estudiada. Puesto que la distribución es a priori desconocido en este tipo de problemas y con el objetivo de que la aproximación propuesta sea agnóstica a la distribución, se propone la implementación de distintas combinaciones de modelos en la ejecución del ensemble. Su potencial radica en que la votaciones dependerán de distintos modelos con sus respectivas maneras de interpretar el espacio. Cabe esperar que los inductores basados en combinación de modelos ofrezcan mejores selecciones de variables relevantes para la enfermedad con independencia de cual sea la distribución condicional de los genes relevantes respecto a la presencia o ausencia de la enfermedad. es_ES
dc.description.abstract [EN] Genomics is the discipline that studies the human genome. One of the main challenges is the detection of relevant genetic variables that determine a genotype or disease. In this field of study, we encounter a peculiarity in the data: the quantity of samples is limited due to costs, and the variability of each observation is very high due to the nature of the human genome. To address this issue and find the relevant genomic variables for a disease, we will use an ensemble algorithm. Here, the selection of variables is guided by the consensus of multiple runs of learning models applied to various data partitions. On each of these partitions, an inducer will perform a feature selection based on a target variable, which in the case at hand would be to detect whether it is a case or a control. Each of these selections is consensually decided through a voting scheme, where it is expected that the relevance of a variable is reflected in the number of votes obtained by summing the times a variable has been selected. This algorithm is based on the use of heterogeneous models; therefore, performance will depend on the machine learning algorithm's ability to adapt to the actual conditional distribution of the genes involved regarding the presence or absence of the studied disease. Since the distribution is a priori unknown in this type of problem, and with the aim of making the proposed approach distribution-agnostic, we suggest implementing different combinations of models in the ensemble execution. Its potential lies in the fact that the votes will depend on different models with their respective ways of interpreting the space. It is expected that inductors based on model combinations will offer better selections of relevant variables for the disease, regardless of the conditional distribution of the relevant genes concerning the presence or absence of the disease. es_ES
dc.description.abstract [CA] La genòmica és la disciplina que estudia el genoma humà. Un dels principals reptes és la detecció de variables genètiques rellevants que determinin un genotip o una malaltia. En aquest àmbit d’estudi ens trobem amb una peculiaritat en les dades: la quantitat de mostres és limitada a causa dels costos i la variabilitat de cada observació és molt elevada a causa de la naturalesa del genoma humà. Per abordar aquesta problemàtica i trobar les variables genòmiques rellevants per a una malaltia, utilitzarem un algorisme ensemble. Aquí, la selecció de variables es regeix pel consens de múltiples execucions de models d’aprenentatge aplicats a diverses particions de les dades. Sobre cadascuna de les particions, un inductor realitzarà una selecció de característiques basant-se en una variable objectiu, que en el cas que ens ocupa seria detectar si es tracta d’un cas o un control. Cadascuna d’aquestes seleccions es consensua mitjançant un esquema de vots, on s’espera que la rellevància d’una variable es vegi reflectida en el nombre de vots obtinguts mitjançant la suma de les vegades que una variable ha estat seleccionada. Aquest algorisme està basat en l’ús de models heterogenis, per tant, el rendiment dependrà de la capacitat de l’algorisme d’aprenentatge automàtic per adaptar-se a la distribució condicional real dels gens implicats respecte a la presència o absència de la malaltia estudiada. Com que la distribució és a priori desconeguda en aquest tipus de problemes i amb l’objectiu que l’aproximació proposada sigui agnòstica a la distribució, es proposa la implementació de diferents combinacions de models en l’execució de l’ensemble. El seu potencial radica en què les votacions dependran de diferents models amb les seves respectives maneres d’interpretar l’espai. S’espera que els inductors basats en la combinació de models ofereixin millors seleccions de variables rellevants per a la malaltia, independentment de quina sigui la distribució condicional dels gens rellevants respecte a la presència o absència de la malaltia. es_ES
dc.format.extent 70 es_ES
dc.language Español es_ES
dc.publisher Universitat Politècnica de València es_ES
dc.rights Reconocimiento - No comercial (by-nc) es_ES
dc.subject Salud es_ES
dc.subject Ciencia de datos es_ES
dc.subject Variables genéticas es_ES
dc.subject Ensemble es_ES
dc.subject Selección de características es_ES
dc.subject Datos de microarray es_ES
dc.subject Espacios de alta dimensionalidad es_ES
dc.subject Health es_ES
dc.subject Data science es_ES
dc.subject Genetic variables es_ES
dc.subject Feature selection es_ES
dc.subject Microarray data es_ES
dc.subject High dimensionality spaces es_ES
dc.subject.classification ESTADISTICA E INVESTIGACION OPERATIVA es_ES
dc.subject.other Grado en Ingeniería Informática-Grau en Enginyeria Informàtica es_ES
dc.title Combinación de modelos heterogéneos para la identificación de variantes genéticas implicadas en la diabetes mellitus tipo 2 (DT2) es_ES
dc.title.alternative Combination of heterogeneous models for the identification of genetic variants involved in type 2 diabetes mellitus (DT2) es_ES
dc.title.alternative Combinació de models heterogenis per a la identificació de variants genètiques implicades en la diabetes mellitus tipo 2 (DT2) es_ES
dc.type Proyecto/Trabajo fin de carrera/grado es_ES
dc.rights.accessRights Abierto es_ES
dc.contributor.affiliation Universitat Politècnica de València. Departamento de Estadística e Investigación Operativa Aplicadas y Calidad - Departament d'Estadística i Investigació Operativa Aplicades i Qualitat es_ES
dc.contributor.affiliation Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica es_ES
dc.description.bibliographicCitation Moltó Moltó, JR. (2023). Combinación de modelos heterogéneos para la identificación de variantes genéticas implicadas en la diabetes mellitus tipo 2 (DT2). Universitat Politècnica de València. http://hdl.handle.net/10251/197604 es_ES
dc.description.accrualMethod TFGM es_ES
dc.relation.pasarela TFGM\158332 es_ES


Aquest element apareix a les col·leccions següents

Mostra el registre d'item simple