Resumen:
|
[ES] La genómica es la disciplina que estudia el genoma humano. Uno de los principales desafíos es: la detección de variables genéticas relevantes que determinen un genotipo o enfermedad. En este ámbito de estudio nos ...[+]
[ES] La genómica es la disciplina que estudia el genoma humano. Uno de los principales desafíos es: la detección de variables genéticas relevantes que determinen un genotipo o enfermedad. En este ámbito de estudio nos encontramos con una peculiaridad en los datos: la cantidad de muestras es limitada debido a los costos y la variabilidad de cada observación es muy elevada debido a la naturaleza del genoma humano.
Para abordar esta problemática, encontrar las variables genómicas relevantes para una enfermedad, utilizaremos un algoritmo ensemble. Aquí, la selección de variables se rige por el consenso de múltiples ejecuciones de modelos de aprendizaje aplicados a diversas particiones de los datos. Sobre cada una de las particiones un inductor realizará una selección de características basándose en una variable objetivo, que en el caso que nos ocupa sería detectar si se trata de un caso o un control. Cada una de estas selecciones se consensúa en base a un esquema de votos donde se espera que la relevancia de una variable se vea reflejada en el número de votos obtenidos a través de la suma de las veces que una variable ha sido seleccionada.
Este algoritmo esta basado en el uso de modelos heterogéneos, por tanto el rendimiento dependerá de la capacidad del algoritmo de machine learning para adaptarse a la distribución condicional real de los genes implicados respecto a la presencia o no de la enfermedad estudiada. Puesto que la distribución es a priori desconocido en este tipo de problemas y con el objetivo de que la aproximación propuesta sea agnóstica a la distribución, se propone la implementación de distintas combinaciones de modelos en la ejecución del ensemble. Su potencial radica en que la votaciones dependerán de distintos modelos con sus respectivas maneras de interpretar el espacio. Cabe esperar que los inductores basados en combinación de modelos ofrezcan mejores selecciones de variables relevantes para la enfermedad con independencia de cual sea la distribución condicional de los genes relevantes respecto a la presencia o ausencia de la enfermedad.
[-]
[EN] Genomics is the discipline that studies the human genome. One of the main challenges is the detection of relevant genetic variables that determine a genotype or disease. In this field of study, we encounter a peculiarity ...[+]
[EN] Genomics is the discipline that studies the human genome. One of the main challenges is the detection of relevant genetic variables that determine a genotype or disease. In this field of study, we encounter a peculiarity in the data: the quantity of samples is limited due to costs, and the variability of each observation is very high due to the nature of the human genome.
To address this issue and find the relevant genomic variables for a disease, we will use an ensemble algorithm. Here, the selection of variables is guided by the consensus of multiple runs of learning models applied to various data partitions. On each of these partitions, an inducer will perform a feature selection based on a target variable, which in the case at hand would be to detect whether it is a case or a control. Each of these selections is consensually decided through a voting scheme, where it is expected that the relevance of a variable is reflected in the number of votes obtained by summing the times a variable has been selected.
This algorithm is based on the use of heterogeneous models; therefore, performance will depend on the machine learning algorithm's ability to adapt to the actual conditional distribution of the genes involved regarding the presence or absence of the studied disease. Since the distribution is a priori unknown in this type of problem, and with the aim of making the proposed approach distribution-agnostic, we suggest implementing different combinations of models in the ensemble execution. Its potential lies in the fact that the votes will depend on different models with their respective ways of interpreting the space. It is expected that inductors based on model combinations will offer better selections of relevant variables for the disease, regardless of the conditional distribution of the relevant genes concerning the presence or absence of the disease.
[-]
[CA] La genòmica és la disciplina que estudia el genoma humà. Un dels principals
reptes és la detecció de variables genètiques rellevants que determinin un genotip
o una malaltia. En aquest àmbit d’estudi ens trobem amb ...[+]
[CA] La genòmica és la disciplina que estudia el genoma humà. Un dels principals
reptes és la detecció de variables genètiques rellevants que determinin un genotip
o una malaltia. En aquest àmbit d’estudi ens trobem amb una peculiaritat en les
dades: la quantitat de mostres és limitada a causa dels costos i la variabilitat de
cada observació és molt elevada a causa de la naturalesa del genoma humà.
Per abordar aquesta problemàtica i trobar les variables genòmiques rellevants
per a una malaltia, utilitzarem un algorisme ensemble. Aquí, la selecció de variables es regeix pel consens de múltiples execucions de models d’aprenentatge
aplicats a diverses particions de les dades. Sobre cadascuna de les particions,
un inductor realitzarà una selecció de característiques basant-se en una variable
objectiu, que en el cas que ens ocupa seria detectar si es tracta d’un cas o un control. Cadascuna d’aquestes seleccions es consensua mitjançant un esquema de
vots, on s’espera que la rellevància d’una variable es vegi reflectida en el nombre
de vots obtinguts mitjançant la suma de les vegades que una variable ha estat
seleccionada.
Aquest algorisme està basat en l’ús de models heterogenis, per tant, el rendiment dependrà de la capacitat de l’algorisme d’aprenentatge automàtic per
adaptar-se a la distribució condicional real dels gens implicats respecte a la presència o absència de la malaltia estudiada. Com que la distribució és a priori
desconeguda en aquest tipus de problemes i amb l’objectiu que l’aproximació
proposada sigui agnòstica a la distribució, es proposa la implementació de diferents combinacions de models en l’execució de l’ensemble. El seu potencial radica en què les votacions dependran de diferents models amb les seves respectives
maneres d’interpretar l’espai. S’espera que els inductors basats en la combinació
de models ofereixin millors seleccions de variables rellevants per a la malaltia,
independentment de quina sigui la distribució condicional dels gens rellevants
respecte a la presència o absència de la malaltia.
[-]
|