Resumen:
|
[ES] Las distrofias hereditarias de la retina (DHR) engloban a un conjunto de enfermedades que se caracterizan, en la mayoría de los casos, por una degeneración progresiva de los fotorreceptores, dando lugar a una pérdida ...[+]
[ES] Las distrofias hereditarias de la retina (DHR) engloban a un conjunto de enfermedades que se caracterizan, en la mayoría de los casos, por una degeneración progresiva de los fotorreceptores, dando lugar a una pérdida de la visión e incluso a ceguera legal. Una de las principales características de las DHR es su elevada heterogeneidad clínica y genética. Actualmente se han descrito más de 250 genes relacionados con algún tipo de DHR, lo que supone un reto para el diagnóstico molecular de estos pacientes.
En los últimos años, la secuenciación masiva ha mejorado considerablemente el rendimiento diagnóstico de las DHR, ya que permite estudiar un gran número de genes en un elevado número de pacientes. Actualmente, el diseño y análisis de un panel de genes relacionados con la patología de interés es la estrategia más utilizada en la práctica clínica. Sin embargo, aproximadamente un 40% de lo pacientes permanecen sin un diagnóstico genético después de ese estudio. El siguiente estudio que se plantea ante esa situación es realizar el estudio del exoma completo (WES) que permite analizar la región codificante de más de 20.000 genes y poder identificar nuevos genes responsables de diferentes patologías. Una de las problemáticas de la aproximación mediante un WES es cómo analizar las casi 100.000 variantes detectadas.
En este TFM se abordará el uso de técnicas de machine learning para el análisis, diseño e implementación de herramientas de categorización que, a partir de la información de variantes proporcionada por el WES, faciliten la identificación de las variantes y el gen responsable de la enfermedad en cada caso.
Para ello, a partir de la fuente de datos proporcionada por las técnicas de secuenciación masiva que incluirá las variantes detectadas, se realizará una curación de los datos para filtrar la información significativa y anonimizada de cada paciente. Posteriormente, se aplicarán técnicas de aprendizaje automático, fundamentalmente orientadas a la obtención de random forests y redes neuronales, que permitan obtener clasificadores (categorizadores) a partir de la información de las variantes. Finalmente se realizará un proceso de validación de los datos (mediante métricas de sensibilidad, especificidad y AUC) para poner la herramienta en una situación de utilización en entornos reales.
[-]
[EN] Inherited retinal dystrophies (IRDs) are a group of diseases characterized by progressive photoreceptor degeneration that leads to legal blindness. The main IRD feature is high clinical and genetic heterogeneity. There ...[+]
[EN] Inherited retinal dystrophies (IRDs) are a group of diseases characterized by progressive photoreceptor degeneration that leads to legal blindness. The main IRD feature is high clinical and genetic heterogeneity. There are currently more than 250 genes related to IRDs, making the molecular diagnosis a challenge. Next-generation sequencing (NGS) has significantly improved IRD diagnosis performance in recent years, as it allows for the investigation of many genes in a large number of patients. Designing and evaluating an IRDs-related gene panel is currently the most widely employed method in clinical practice. However, after this study, roughly 40% of patients continue without a genetic diagnosis. When this happens, the next step is a whole-exome sequencing (WES) study, which analyses the coding region of over 20 000 genes to find new ones related to the disease. When performing a WES study, one of the challenges is the analysis of more than 100 000 variants that are detected. In this master¿s thesis, machine learning techniques will be used to analyze, design, and implement categorization tools that facilitate identifying the variants and genes responsible for the disease in each case. First, beginning with a dataset
obtained by NGS, data curation is performed to filter significant and anonymized information of each patient. Then, machine learning techniques are applied, mainly focused on random forests and neural networks, to obtain classifiers (categorizers) from variant information. Finally, the tool will perform in a real-world environment to validate the model with metrics like sensitivity, specificity and AUC.
[-]
[CAT] Les distròfies hereditàries de la retina (DHR) engloben un conjunt de malalties que es caracteritzen, en la majoria dels casos, per una degeneració progressiva dels fotoreceptors, donant lloc a
una pèrdua de la visió ...[+]
[CAT] Les distròfies hereditàries de la retina (DHR) engloben un conjunt de malalties que es caracteritzen, en la majoria dels casos, per una degeneració progressiva dels fotoreceptors, donant lloc a
una pèrdua de la visió i fins i tot a la ceguera legal. Una de les principals característiques de les
DHR és la seua elevada heterogeneïtat clínica i genètica. Actualment s’han descrit més de 250
gens relacionats amb algun tipus de DHR, el que suposa un repte per al diagnòstic molecular
d’aquests pacients. En els últims anys, la seqüenciació massiva ha millorat considerablement el
rendiment diagnòstic de les DHR, ja que permet estudiar un gran nombre de gens en un elevat
nombre de pacients. Actualment, el disseny i l’anàlisi d’un panel de gens relacionats amb la
patologia d’interés, és l’estratègia més utilitzada a la pràctica cínica. No obstant això, aproximadament un 40 % dels pacients continuen sense un diagnòstic genètic després d’aquest estudi. El
següent estudi que es planteja davant aquesta situació, és realitzar un estudi de l’exoma complet
(WES) que permet analitzar la regió codificant de més de 20 000 gens i poder identificar nous
gens responsables de diferents patologies. Una de les problemàtiques de l’aproximació mitjançant
un WES és com analitzar les quasi 100 000 variacions detectades. En aquest TFM es tractarà
l’ús de tècniques de machine learning per a l’anàlisi, disseny i implementació de ferramentes de
categorització que, a partir de la informació de variacions proporcionades pel WES, faciliten la
identificació de les variacions i el gen responsable de la malaltia en cada cas. Per això, a partir
de la font de dades proporcionada per les tècniques de seqüenciació massiva que inclourà les variacions detectades, es realitzarà una curació de les dades per a filtrar la informació significativa
i anonimitzada de cada pacient. Posteriorment, s’aplicaran tècniques d’aprenentatge automàtic,
fonamentalment orientades a l’obtenció de random forests i xarxes neuronals, que permeten obtindre classificadors (categoritzadors) a partir de la informació de les variacions. Finalment, es
realitzarà un procés de validació de les dades (mitjançant mètriques de sensibilitat, especificitat
i AUC) per a ficar la ferramenta en una situació d’ús en entorns reals.
[-]
|