Resumen:
|
[ES] El ser capaz de identificar el haplotipo de un individuo, así como las numerosas variaciones estructurales que se pueden encontrar en las secuencias genéticas, es uno de los desafíos primordiales con los que se enfrenta ...[+]
[ES] El ser capaz de identificar el haplotipo de un individuo, así como las numerosas variaciones estructurales que se pueden encontrar en las secuencias genéticas, es uno de los desafíos primordiales con los que se enfrenta la genómica y quizás en mayor medida la bioinformática actualmente. Desde que se secuenciara la primera cadena de material genético, hasta hoy en día, las tecnologías de secuenciación han evolucionado inmensamente, como también lo han hecho la cantidad de datos que somos capaces de obtener con una sola secuenciación. Es por ello, que se han desarrollado y se están desarrollando numerosas aproximaciones y algoritmos, capaces de ordenar y analizar estos datos, de los que posteriormente extraer ciertas conclusiones (detección de haplotipos y variantes estructurales). Es aquí dónde nos encontramos con uno de los objetivos principales de este trabajo de revisión: hacer un estudio exhaustivo tanto de las tecnologías de secuenciación que están siendo utilizadas actualmente como de los algoritmos asociados y comprarlos entre ellos. Además, examinaremos la aplicación de estas tecnologías genómicas, desde un punto de visto clínico y particular: el proto-onco gen RET. Este gen que codifica para un receptor de membrana de tipo tirosina-quinasa y es diana de muchas mutaciones, causantes de diversas enfermedades, entre ellas el síndrome Hirschsprung. Desde que se propusiera este gen como candidato de estas enfermedades, se han llevado a cabo numerosos estudios que han realizado aproximaciones genómicas para determinar cuáles son las variantes estructurales responsables de dichas enfermedades. Nuestra intención es entender como la diversidad de aproximaciones y algoritmos han hecho posible obtener un diagnóstico, con metodologías distintas, dependiendo tanto de las características de las experiencias realizadas como del momento temporal de cada de estudio. Por último, se pretende también poner en práctica los conocimientos bibliográficos obtenidos, para proponer una aproximación propia y particular que fuera viable para desarrollarla en un futuro.
[-]
[EN] Determining which variants have a common inheritance and where they are located in the genome is known as haplotype assembly. Knowing an individual's haplotype greatly facilitates the work capacity of association ...[+]
[EN] Determining which variants have a common inheritance and where they are located in the genome is known as haplotype assembly. Knowing an individual's haplotype greatly facilitates the work capacity of association studies, being a great tool in phylogenetics and clinical diagnosis, however, it is not a simple task. Many efforts have been done for years on the determination of haplotypes, since the first genome haplotype map (HapMap) was created in 2003. Today the predominant approaches are those based on the molecular readings generated by sequencing technologies. This means that being able to determine the haplotype depends greatly on the type of sequence being worked with. Up to a few year ago, the algorithms were programmed to work with short readings produced by 'Next Generation Sequencing' technologies, being able to cope with the most common errors in these readings. However, these sequences cause a lot of information to be lost throughout the genome, as most of them are incapable of covering more than one heterozygous variant, in addition to their difficulty in mapping complex genomes such as the human one, directly affecting the quality of the haplotype that can be generated from this type of reading. For this and other reasons, haplotype assembly algorithms have evolved to be able to work with long readings produced by third generation technologies, avoiding the limitations of short readings, but coping with others, such as the high error rate of some of these technologies. In the present review it is proposed to analyze and explain each of the algorithms developed for this purpose, as well as to compare their operation and impact on the scientific literature. Furthermore, how the quality of the final haplotype can vary is also studied, with the combination of the most innovative sequencing methodologies such as Hi-C and StrandSeq. An approach deduced as optimal from the literature is also proposed.
[-]
|