Optimización, validación y aplicación a un caso real de una herramienta bioinformática para el análisis transcriptómico de organismos no modelo utilizando lecturas largas

Sobrino Sánchez, Isidro

Identificarse

Buscar en RiuNet

Listar

Todo RiuNet
Esta colección

Mi cuenta

Acceder

Estadísticas

Ver Estadísticas de uso

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Optimización, validación y aplicación a un caso real de una herramienta bioinformática para el análisis transcriptómico de organismos no modelo utilizando lecturas largas

Mostrar el registro sencillo del ítem

Ficheros en el ítem

Nombre: (2)_Sobrino - ...

Tamaño: 231.4Kb

Formato: PDF

Descripción: Anexos

Abrir

Nombre: Sobrino - Optimizacion ...

Tamaño: 1.345Mb

Formato: PDF

Descripción: Memoria

Abrir

dc.contributor.advisor	Forment Millet, José Javier	es_ES
dc.contributor.advisor	Conesa Cegarra, Ana	es_ES
dc.contributor.advisor	Amorín de Hegedüs, Rocío	es_ES
dc.contributor.author	Sobrino Sánchez, Isidro	es_ES
dc.date.accessioned	2022-10-21T09:42:08Z
dc.date.available	2022-10-21T09:42:08Z
dc.date.created	2022-09-28
dc.date.issued	2022-10-21	es_ES
dc.identifier.uri	http://hdl.handle.net/10251/188507
dc.description.abstract	[ES] El desarrollo de las tecnologías de secuenciación de lectura larga como Pacific Bioscience (PacBio) o Oxford Nanopore han permitido un enorme avance en la secuenciación, no solo de genomas, sino también de ARN mensajero. La mayor longitud de las lecturas ha permitido el descubrimiento de transcritos noveles que las tecnologías de secuencia corta no habían sido capaces de detectar. Esto se debe, principalmente, a la capacidad de secuenciar la totalidad del transcrito del extremo 5’ al 3’, lo que permite prescindir del ensamblaje y reconstrucciones necesarias con las tecnologías de short-read. A pesar de la eficacia demostrada por los softwares de mapeo y ensamblaje utilizados, estos pueden generar artefactos y no resuelven correctamente loci complejos. Es por ello por lo que muchos transcritos no son detectados al mapear sus lecturas con otros transcritos similares. Evitar este paso es crucial para tener una visión más clara de la estructura y los eventos de splicing que ocurren en cada gen, motivo por el cual cada vez se utilizan más las lecturas largas para estudios de secuenciación transcriptómica. Junto al desarrollo de toda esta tecnología se hizo necesaria la aparición de nuevas herramientas bioinformáticas que permitiesen el tratamiento y análisis de estos datos generados. En el caso concreto de los estudios transcriptómicos resaltan especialmente aquellos dedicados al análisis, a la clasificación e, incluso, al descubrimiento de nuevas isoformas producto de eventos de splicing. El splicing alternativo es uno de los principales mecanismos productores de diversidad en los seres vivos, y resulta muy importante en casi todos los procesos biológicos. Sin embargo, la mayoría de estas herramientas necesitan el apoyo de un genoma de referencia para clasificar y analizar las secuencias generadas. Esto dificulta su uso en aquellas especies que; o bien, carecen de este; o bien, no tienen suficiente calidad, como son la mayoría de las especies no-modelo. En la actualidad existen algunas herramientas de software que abordan el problema del análisis de datos de transcriptómica de long reads sin la utilización de una anotación de referencia. Sin embargo, quedan por desarrollar métodos que describan adecuadamente los transcriptomas resultantes. El objetivo de este Trabajo de fin de grado es la optimización y validación de un pipeline capaz de clasificar transcritos procedentes de proyectos de secuenciación con long-reads que no usan una anotación de referencia en su análisis. Esta clasificación es doble; por un lado, agrupa aquellos transcritos procedentes de un mismo gen y; por otro, clasifica estos en función del evento de splicing que parece haber sufrido (retención intrónica, cambios exónicos, UTRs alternativas, etc). El pipeline, principalmente, programado en Python, utiliza diversos métodos que incluyen el mapeo, agrupamiento o ensamblaje, utilizando desde k-mers hasta grafos de Bruijn. Además, la metodología desarrollada se aplica a un caso real: el análisis transcriptómico de la especie Micropterus salmoides, utilizando un proyecto de secuenciación de RNA realizado previamente con la tecnología de secuenciación SMRT (PacBio).	es_ES
dc.description.abstract	[EN] The development of long-read sequencing technologies such as Pacific Bioscience (PacBio) or Oxford Nanopore has enabled a huge advance in sequencing, not only of genomes, but also of messenger RNA. Longer read lengths have enabled the discovery of novel transcripts that short sequencing technologies had not been able to detect. This is mainly due to the ability to sequence the entire transcript from the 5' to the 3' end, which makes it possible to dispense with the assembly and reconstructions required with short-read technologies. Despite the efficiency demonstrated by the mapping and assembly software used, these can generate artefacts and do not correctly resolve complex loci. This is why many transcripts are not detected when mapping their reads to other similar transcripts. Avoiding this step is crucial to get a clearer picture of the structure and splicing events occurring in each gene, which is why long reads are increasingly used for transcriptomic sequencing studies. Along with the development of all this technology, new bioinformatics tools were needed to process and analyse the data generated. In the specific case of transcriptomic studies, those dedicated to the analysis, classification and even discovery of new isoforms resulting from splicing events stand out. Alternative splicing is one of the main diversity-producing mechanisms in living beings and is very important in practically all biological processes. However, most of these tools need the support of a reference genome to classify and analyse the sequences generated. This makes it difficult to use them in species that either lack a reference genome or do not have one of sufficient quality. The aim of this final degree project is the optimisation and validation of a pipeline capable of classifying transcripts from sequencing projects with long-reads. This classification is twofold: on the one hand, it groups transcripts from the same gene and, on the other, it classifies them according to the splicing event they appear to have undergone (intronic retention, exonic changes, alternative UTRs, etc.). The pipeline, mainly programmed in Python, uses a variety of methods including mapping, clustering or assembly, using everything from k-mers to bruijn graphs. In addition, it will be applied to a real case: transcriptomic analysis of the Micropterus salmoides species will be performed, using an RNA sequencing project previously carried out with SMRT sequencing technology (PacBio).	es_ES
dc.format.extent	40	es_ES
dc.language	Español	es_ES
dc.publisher	Universitat Politècnica de València	es_ES
dc.rights	Reserva de todos los derechos	es_ES
dc.subject	Lecturas largas	es_ES
dc.subject	Transcriptómica	es_ES
dc.subject	Isoformas	es_ES
dc.subject	Bioinformática	es_ES
dc.subject	No-modelo	es_ES
dc.subject	Long reads	es_ES
dc.subject	Transcriptomics	es_ES
dc.subject	Splicing	es_ES
dc.subject	Pipeline	es_ES
dc.subject	Bioinformatics	es_ES
dc.subject	Non-model	es_ES
dc.subject.classification	BIOQUIMICA Y BIOLOGIA MOLECULAR	es_ES
dc.subject.other	Grado en Biotecnología-Grau en Biotecnologia	es_ES
dc.title	Optimización, validación y aplicación a un caso real de una herramienta bioinformática para el análisis transcriptómico de organismos no modelo utilizando lecturas largas	es_ES
dc.title.alternative	Optimisation, validation and application to a real case of a bioinformatics tool for transcriptomic analysis of non-model organisms using long-reads	es_ES
dc.title.alternative	Optimització, validació i aplicació a un cas real d'una ferramenta bioinformàtica per a l'anàlisi transcriptomica d'organismes no model utilitzant lectures llargues	es_ES
dc.type	Proyecto/Trabajo fin de carrera/grado	es_ES
dc.rights.accessRights	Abierto	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Departamento de Biotecnología - Departament de Biotecnologia	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Escuela Técnica Superior de Ingeniería Agronómica y del Medio Natural - Escola Tècnica Superior d'Enginyeria Agronòmica i del Medi Natural	es_ES
dc.description.bibliographicCitation	Sobrino Sánchez, I. (2022). Optimización, validación y aplicación a un caso real de una herramienta bioinformática para el análisis transcriptómico de organismos no modelo utilizando lecturas largas. Universitat Politècnica de València. http://hdl.handle.net/10251/188507	es_ES
dc.description.accrualMethod	TFGM	es_ES
dc.relation.pasarela	TFGM\150594	es_ES

Este ítem aparece en la(s) siguiente(s) colección(ones)

ETSIAMN - Trabajos académicos [3326]
Escuela Técnica Superior de Ingeniería Agronómica y del Medio Natural

Mostrar el registro sencillo del ítem

Optimización, validación y aplicación a un caso real de una herramienta bioinformática para el análisis transcriptómico de organismos no modelo utilizando lecturas largas

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Buscar en RiuNet

Listar

Todo RiuNet

Esta colección

Mi cuenta

Estadísticas

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Optimización, validación y aplicación a un caso real de una herramienta bioinformática para el análisis transcriptómico de organismos no modelo utilizando lecturas largas

Ficheros en el ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)