Abstract:
|
[ES] El desarrollo de las tecnologías de secuenciación de lectura larga como Pacific Bioscience (PacBio) o Oxford Nanopore han permitido un enorme avance en la secuenciación, no solo de genomas, sino también de ARN mensajero. ...[+]
[ES] El desarrollo de las tecnologías de secuenciación de lectura larga como Pacific Bioscience (PacBio) o Oxford Nanopore han permitido un enorme avance en la secuenciación, no solo de genomas, sino también de ARN mensajero. La mayor longitud de las lecturas ha permitido el descubrimiento de transcritos noveles que las tecnologías de secuencia corta no habían sido capaces de detectar. Esto se debe, principalmente, a la capacidad de secuenciar la totalidad del transcrito del extremo 5’ al 3’, lo que permite prescindir del ensamblaje y reconstrucciones necesarias con las tecnologías de short-read. A pesar de la eficacia demostrada por los softwares de mapeo y ensamblaje utilizados, estos pueden generar artefactos y no resuelven correctamente loci complejos. Es por ello por lo que muchos transcritos no son detectados al mapear sus lecturas con otros transcritos similares. Evitar este paso es crucial para tener una visión más clara de la estructura y los eventos de splicing que ocurren en cada gen, motivo por el cual cada vez se utilizan más las lecturas largas para estudios de secuenciación transcriptómica. Junto al desarrollo de toda esta tecnología se hizo necesaria la aparición de nuevas herramientas bioinformáticas que permitiesen el tratamiento y análisis de estos datos generados. En el caso concreto de los estudios transcriptómicos resaltan especialmente aquellos dedicados al análisis, a la clasificación e, incluso, al descubrimiento de nuevas isoformas producto de eventos de splicing. El splicing alternativo es uno de los principales mecanismos productores de diversidad en los seres vivos, y resulta muy importante en casi todos los procesos biológicos. Sin embargo, la mayoría de estas herramientas necesitan el apoyo de un genoma de referencia para clasificar y analizar las secuencias generadas. Esto dificulta su uso en aquellas especies que; o bien, carecen de este; o bien, no tienen suficiente calidad, como son la mayoría de las especies no-modelo. En la actualidad existen algunas herramientas de software que abordan el problema del análisis de datos de transcriptómica de long reads sin la utilización de una anotación de referencia. Sin embargo, quedan por desarrollar métodos que describan adecuadamente los transcriptomas resultantes. El objetivo de este Trabajo de fin de grado es la optimización y validación de un pipeline capaz de clasificar transcritos procedentes de proyectos de secuenciación con long-reads que no usan una anotación de referencia en su análisis. Esta clasificación es doble; por un lado, agrupa aquellos transcritos procedentes de un mismo gen y; por otro, clasifica estos en función del evento de splicing que parece haber sufrido (retención intrónica, cambios exónicos, UTRs alternativas, etc). El pipeline, principalmente, programado en Python, utiliza diversos métodos que incluyen el mapeo, agrupamiento o ensamblaje, utilizando desde k-mers hasta grafos de Bruijn. Además, la metodología desarrollada se aplica a un caso real: el análisis transcriptómico de la especie Micropterus salmoides, utilizando un proyecto de secuenciación de RNA realizado previamente con la tecnología de secuenciación SMRT (PacBio).
[-]
[EN] The development of long-read sequencing technologies such as Pacific Bioscience (PacBio) or
Oxford Nanopore has enabled a huge advance in sequencing, not only of genomes, but also of
messenger RNA. Longer read lengths ...[+]
[EN] The development of long-read sequencing technologies such as Pacific Bioscience (PacBio) or
Oxford Nanopore has enabled a huge advance in sequencing, not only of genomes, but also of
messenger RNA. Longer read lengths have enabled the discovery of novel transcripts that short
sequencing technologies had not been able to detect. This is mainly due to the ability to
sequence the entire transcript from the 5' to the 3' end, which makes it possible to dispense with
the assembly and reconstructions required with short-read technologies. Despite the efficiency
demonstrated by the mapping and assembly software used, these can generate artefacts and do
not correctly resolve complex loci. This is why many transcripts are not detected when mapping
their reads to other similar transcripts. Avoiding this step is crucial to get a clearer picture of the
structure and splicing events occurring in each gene, which is why long reads are increasingly
used for transcriptomic sequencing studies.
Along with the development of all this technology, new bioinformatics tools were needed to
process and analyse the data generated. In the specific case of transcriptomic studies, those
dedicated to the analysis, classification and even discovery of new isoforms resulting from
splicing events stand out. Alternative splicing is one of the main diversity-producing mechanisms
in living beings and is very important in practically all biological processes. However, most of
these tools need the support of a reference genome to classify and analyse the sequences
generated. This makes it difficult to use them in species that either lack a reference genome or
do not have one of sufficient quality.
The aim of this final degree project is the optimisation and validation of a pipeline capable of
classifying transcripts from sequencing projects with long-reads. This classification is twofold:
on the one hand, it groups transcripts from the same gene and, on the other, it classifies them
according to the splicing event they appear to have undergone (intronic retention, exonic
changes, alternative UTRs, etc.). The pipeline, mainly programmed in Python, uses a variety of
methods including mapping, clustering or assembly, using everything from k-mers to bruijn
graphs. In addition, it will be applied to a real case: transcriptomic analysis of the Micropterus
salmoides species will be performed, using an RNA sequencing project previously carried out
with SMRT sequencing technology (PacBio).
[-]
|