- -

Optimización, validación y aplicación a un caso real de una herramienta bioinformática para el análisis transcriptómico de organismos no modelo utilizando lecturas largas

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Compartir/Enviar a

Citas

Estadísticas

  • Estadisticas de Uso

Optimización, validación y aplicación a un caso real de una herramienta bioinformática para el análisis transcriptómico de organismos no modelo utilizando lecturas largas

Mostrar el registro sencillo del ítem

Ficheros en el ítem

dc.contributor.advisor Forment Millet, José Javier es_ES
dc.contributor.advisor Conesa Cegarra, Ana es_ES
dc.contributor.advisor Amorín de Hegedüs, Rocío es_ES
dc.contributor.author Sobrino Sánchez, Isidro es_ES
dc.date.accessioned 2022-10-21T09:42:08Z
dc.date.available 2022-10-21T09:42:08Z
dc.date.created 2022-09-28
dc.date.issued 2022-10-21 es_ES
dc.identifier.uri http://hdl.handle.net/10251/188507
dc.description.abstract [ES] El desarrollo de las tecnologías de secuenciación de lectura larga como Pacific Bioscience (PacBio) o Oxford Nanopore han permitido un enorme avance en la secuenciación, no solo de genomas, sino también de ARN mensajero. La mayor longitud de las lecturas ha permitido el descubrimiento de transcritos noveles que las tecnologías de secuencia corta no habían sido capaces de detectar. Esto se debe, principalmente, a la capacidad de secuenciar la totalidad del transcrito del extremo 5’ al 3’, lo que permite prescindir del ensamblaje y reconstrucciones necesarias con las tecnologías de short-read. A pesar de la eficacia demostrada por los softwares de mapeo y ensamblaje utilizados, estos pueden generar artefactos y no resuelven correctamente loci complejos. Es por ello por lo que muchos transcritos no son detectados al mapear sus lecturas con otros transcritos similares. Evitar este paso es crucial para tener una visión más clara de la estructura y los eventos de splicing que ocurren en cada gen, motivo por el cual cada vez se utilizan más las lecturas largas para estudios de secuenciación transcriptómica. Junto al desarrollo de toda esta tecnología se hizo necesaria la aparición de nuevas herramientas bioinformáticas que permitiesen el tratamiento y análisis de estos datos generados. En el caso concreto de los estudios transcriptómicos resaltan especialmente aquellos dedicados al análisis, a la clasificación e, incluso, al descubrimiento de nuevas isoformas producto de eventos de splicing. El splicing alternativo es uno de los principales mecanismos productores de diversidad en los seres vivos, y resulta muy importante en casi todos los procesos biológicos. Sin embargo, la mayoría de estas herramientas necesitan el apoyo de un genoma de referencia para clasificar y analizar las secuencias generadas. Esto dificulta su uso en aquellas especies que; o bien, carecen de este; o bien, no tienen suficiente calidad, como son la mayoría de las especies no-modelo. En la actualidad existen algunas herramientas de software que abordan el problema del análisis de datos de transcriptómica de long reads sin la utilización de una anotación de referencia. Sin embargo, quedan por desarrollar métodos que describan adecuadamente los transcriptomas resultantes. El objetivo de este Trabajo de fin de grado es la optimización y validación de un pipeline capaz de clasificar transcritos procedentes de proyectos de secuenciación con long-reads que no usan una anotación de referencia en su análisis. Esta clasificación es doble; por un lado, agrupa aquellos transcritos procedentes de un mismo gen y; por otro, clasifica estos en función del evento de splicing que parece haber sufrido (retención intrónica, cambios exónicos, UTRs alternativas, etc). El pipeline, principalmente, programado en Python, utiliza diversos métodos que incluyen el mapeo, agrupamiento o ensamblaje, utilizando desde k-mers hasta grafos de Bruijn. Además, la metodología desarrollada se aplica a un caso real: el análisis transcriptómico de la especie Micropterus salmoides, utilizando un proyecto de secuenciación de RNA realizado previamente con la tecnología de secuenciación SMRT (PacBio). es_ES
dc.description.abstract [EN] The development of long-read sequencing technologies such as Pacific Bioscience (PacBio) or Oxford Nanopore has enabled a huge advance in sequencing, not only of genomes, but also of messenger RNA. Longer read lengths have enabled the discovery of novel transcripts that short sequencing technologies had not been able to detect. This is mainly due to the ability to sequence the entire transcript from the 5' to the 3' end, which makes it possible to dispense with the assembly and reconstructions required with short-read technologies. Despite the efficiency demonstrated by the mapping and assembly software used, these can generate artefacts and do not correctly resolve complex loci. This is why many transcripts are not detected when mapping their reads to other similar transcripts. Avoiding this step is crucial to get a clearer picture of the structure and splicing events occurring in each gene, which is why long reads are increasingly used for transcriptomic sequencing studies. Along with the development of all this technology, new bioinformatics tools were needed to process and analyse the data generated. In the specific case of transcriptomic studies, those dedicated to the analysis, classification and even discovery of new isoforms resulting from splicing events stand out. Alternative splicing is one of the main diversity-producing mechanisms in living beings and is very important in practically all biological processes. However, most of these tools need the support of a reference genome to classify and analyse the sequences generated. This makes it difficult to use them in species that either lack a reference genome or do not have one of sufficient quality. The aim of this final degree project is the optimisation and validation of a pipeline capable of classifying transcripts from sequencing projects with long-reads. This classification is twofold: on the one hand, it groups transcripts from the same gene and, on the other, it classifies them according to the splicing event they appear to have undergone (intronic retention, exonic changes, alternative UTRs, etc.). The pipeline, mainly programmed in Python, uses a variety of methods including mapping, clustering or assembly, using everything from k-mers to bruijn graphs. In addition, it will be applied to a real case: transcriptomic analysis of the Micropterus salmoides species will be performed, using an RNA sequencing project previously carried out with SMRT sequencing technology (PacBio). es_ES
dc.format.extent 40 es_ES
dc.language Español es_ES
dc.publisher Universitat Politècnica de València es_ES
dc.rights Reserva de todos los derechos es_ES
dc.subject Lecturas largas es_ES
dc.subject Transcriptómica es_ES
dc.subject Isoformas es_ES
dc.subject Bioinformática es_ES
dc.subject No-modelo es_ES
dc.subject Long reads es_ES
dc.subject Transcriptomics es_ES
dc.subject Splicing es_ES
dc.subject Pipeline es_ES
dc.subject Bioinformatics es_ES
dc.subject Non-model es_ES
dc.subject.classification BIOQUIMICA Y BIOLOGIA MOLECULAR es_ES
dc.subject.other Grado en Biotecnología-Grau en Biotecnologia es_ES
dc.title Optimización, validación y aplicación a un caso real de una herramienta bioinformática para el análisis transcriptómico de organismos no modelo utilizando lecturas largas es_ES
dc.title.alternative Optimisation, validation and application to a real case of a bioinformatics tool for transcriptomic analysis of non-model organisms using long-reads es_ES
dc.title.alternative Optimització, validació i aplicació a un cas real d'una ferramenta bioinformàtica per a l'anàlisi transcriptomica d'organismes no model utilitzant lectures llargues es_ES
dc.type Proyecto/Trabajo fin de carrera/grado es_ES
dc.rights.accessRights Abierto es_ES
dc.contributor.affiliation Universitat Politècnica de València. Departamento de Biotecnología - Departament de Biotecnologia es_ES
dc.contributor.affiliation Universitat Politècnica de València. Escuela Técnica Superior de Ingeniería Agronómica y del Medio Natural - Escola Tècnica Superior d'Enginyeria Agronòmica i del Medi Natural es_ES
dc.description.bibliographicCitation Sobrino Sánchez, I. (2022). Optimización, validación y aplicación a un caso real de una herramienta bioinformática para el análisis transcriptómico de organismos no modelo utilizando lecturas largas. Universitat Politècnica de València. http://hdl.handle.net/10251/188507 es_ES
dc.description.accrualMethod TFGM es_ES
dc.relation.pasarela TFGM\150594 es_ES


Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem