Resumen:
|
[EN] The unveiling of gene function remains a major bottleneck in improving our understanding of living systems, by understanding the processes and mechanisms that are going on in the cell. Beyond classic sequence analysis, ...[+]
[EN] The unveiling of gene function remains a major bottleneck in improving our understanding of living systems, by understanding the processes and mechanisms that are going on in the cell. Beyond classic sequence analysis, an important source of information about the function of a gene is when, where, and how strongly it is being expressed. While the DNA analysis gives us information about all the genetic information that is in a cell, it is the RNA quantitative analysis which allows us to know which information is being processed and which not. Thus, in the post-genomic era the genome-scale expression profiling has become a key tool of functional genomics. The introduction of expression profiling by Next Generation Sequencing has brought a new wave of findings in this matter, as it allows the expression profiling of the whole transcriptome in contrast to other, well-established methods which can focus only on handful of selected targets. Another technology for whole transcriptome expression profiling is high-density microarray, however, this technology is out of the scope of this work.
As expression profiling is a fast moving field, both in terms of the technology and data analysis development, the understanding how the data is generated and how the data analysis process works is crucial in order to correctly interpret the results. The recent study by US FDA led SEQC-III/MAQC consortium [ https://www.nature.com/articles/nbt.2957 ] has shown that there is no technological gold standard in expression profiling. Moreover, this study as well as follow up work has also shown that there is also noticeable discordance between results of RNA-Seq data analysis approaches.
The goal of this Bachelor Thesis is to look deeper into this challenge and focus on tools for differential gene expression calling. I will take advantage of benchmarking data set provided by MAQC-III/SEQC consortium and compare a set of approaches for differential expression gene (DEG) calling as well as for Gene Ontology enrichment analysis. I will identify the areas of discordance for both levels (DEG calling end GO terms enrichment). I will as well investigate the propagation of discordance from one level to another. An additional goal will be to identify the sources of discordance as this will help further improvement of the analysis approaches.
[-]
[ES] Desvelar la función de los genes sigue siendo clave para nuestro entendimieno de los seres vivos, entendiendo los procesos y mecanismos que están teniendo lugar en la célula. Mas allá de un análisis de secuencia ...[+]
[ES] Desvelar la función de los genes sigue siendo clave para nuestro entendimieno de los seres vivos, entendiendo los procesos y mecanismos que están teniendo lugar en la célula. Mas allá de un análisis de secuencia clásico, una fuente importante de información sobre la función de un gen es dónde, cuándo y cuánto un gen está siendo expresado. Mientras que el análisis de ADN nos aporta informaciín acerca de toda la información genética que se encuentra en la célula, es el análisis cuantitativo de ARN lo que nos permite conocer que información está siendo procesada y cual no. Por tanto, en la era post-genómica los perfiles de expresión a escala genómica se han convertido en una herramienta clave de la genómica funcional. La introducción de los perfiles de expresión por Next Generation Sequencing ha traido consigo una nueva ola de descubrimientos en esta materia, al permitir analizar el perfil de expresión de todo el transcriptoma en comparación con otros métodos bien establecidos que podían centrarse tan solo en unos pocos objetivos. Otra tecnología capaz de analizar el perfil de expresión a nivel genómico es el microarray de alta densidad, sin embargo, esta tecnología está fuera del objetivo de este trabajo.
Como el análisis de perfiles de expresión es un campo en constante avance, en términos de tecnología, así como en términos de análisis de datos, poder entender como se generan los dataos y como funciona el análisis de datos es crucial para poder interpretar los resultados correctamente, Un estudio reciente de la US FDA conducido por el consorcio SEQC-III/MAQC [ https://www.nature.com/articles/nbt.2957 ] ha mostrado que no hay una tecnología de referencia en el análisis de perfiles de expresión. Es más, este estudio, junto a trabajos posteriores han mostrado que hay una discordancia notable entre los deferentes enfoques hacia el análisis de datos de RNA-seq.
El objetivo de este TFG es indagar con más profundidad en este desafío y centrarse en herramientas de análisis de expresión diferencial. Aprovecharé los datos de referencia proporcionados por el consorcio MAQC-III/SEQC y compararé una serie de enfoques para el análisis de expresión diferencial, así como el análisis de enriquecimiento en términos Gene Ontology. Identificaré las áreas de discordancia en ambos niveles (expresión diferencial y análisis de términos GO). También investigaré la propagación de la discordancia de un nivel al otro. Un objetivo adicional será identificar las fuentes de discordancia para ayudar a la mejora de futuros análisis.
[-]
|