Mostrar el registro sencillo del ítem
dc.contributor.advisor | Corral Ortega, Cristina | es_ES |
dc.contributor.advisor | Thallinger, Gerhard | es_ES |
dc.contributor.author | Paredes de Isla, Julia | es_ES |
dc.date.accessioned | 2023-10-10T10:19:00Z | |
dc.date.available | 2023-10-10T10:19:00Z | |
dc.date.created | 2023-09-07 | |
dc.date.issued | 2023-10-10 | es_ES |
dc.identifier.uri | http://hdl.handle.net/10251/197884 | |
dc.description.abstract | [ES] La secuenciación de nanoporos ha evolucionado durante las últimas cuatro décadas y Oxford Nanopore Technologies la convirtió en una tecnología viable, que está disponible comercialmente desde 2015. Uno de los muchos pasos cruciales en la secuenciación de ONT es la llamada de base donde los cambios actuales (garabatos) medidos por el dispositivo MinION durante el paso de la hebra de ADN a través del poro se convierte en la secuencia de nucleótidos real. Se han propuesto varios enfoques basados en redes neuronales (NN) [7-11], que difieren en precisión y velocidad. El objetivo general de esta tesis de licenciatura es describir la arquitectura de red neuronal (NNA) de los diferentes enfoques y compararlos utilizando datos de secuenciación ONT adquiridos recientemente de diferentes tipos de poros. En concreto, se debe lograr lo siguiente: 1. Familiarícese con la secuenciación de ONT, el aprendizaje profundo en general y los diferentes NNA utilizados para la llamada de base de ONT en particular. 2. Configure un entorno de desarrollo que incluya Guppy (versión 3.30 y la más reciente), fast-bonito, Heron and Osprey, samtools, minimap2, BLAST y SeqKit. 3. Describa las NNA de los llamadores de base en términos de arquitectura, nodos de entrada, capas, nodos por capa, nodos de salida y número total de parámetros en la NN. 4. Evaluar la velocidad de los diferentes enfoques utilizando los datos de los experimentos de secuenciación ONT recientes de diferentes tipos de celdas de flujo. Trate de crear un modelo matemático para estimar el tiempo total de llamada de base para los diferentes tipos de celdas de flujo y llamadas de base en función de un tiempo de configuración, la cantidad de lecturas y su duración utilizando diferentes conjuntos de datos de muestreo descendente. 5. Evaluar la precisión de la llamada de base asignando las lecturas a un genoma de referencia de la especie secuenciada y utilizando samtools para determinar la tasa de error. Estratifique los errores en desajustes, eliminaciones, inserciones y errores en tramos de homopolímero. 6. Resumir el trabajo y los resultados en una tesis escrita | es_ES |
dc.description.abstract | [EN] In the field of biological research, an essential procedure involves sequencing, which encompasses the precise determination of the sequence of nucleotides within DNA or RNA molecules. Nanopore sequencing technology, pioneered by Oxford Nanopore Technologies (ONT), is founded on the concept of guiding DNA or RNA molecules through a minute pore while monitoring changes in electrical current as each nucleotide traverses the pore. In the ONT sequencing process, a critical bottleneck arises during basecalling, a technique that converts the raw electrical current data collected by a sequencing instrument into the corresponding nucleotide sequence. To address this challenge, numerous basecalling algorithms have been proposed for ONT data, many of which rely on neural networks (NN). These algorithms vary in terms of accuracy and speed. To evaluate the performance of these basecallers, we conducted tests using raw data obtained from the organism Pichia pastoris. Specifically, we assessed version 6.4.8 of Guppy, version 0.3.2 of Dorado, and their modified basecalling algorithms across different models (fast, high accuracy, and super accuracy), in addition to Heron and Osprey. Subsequently, the results were aligned with a reference genome and analyzed to determine various characteristics, such as runtime and error rates. The findings revealed that the modified basecalling algorithms exhibited nearly identical results compared to the unmodified version across all models, although with a slight increase in runtime. Guppy demonstrated the lowest error rates for all models. The model with the most pronounced differences was the super accuracy with a 0.062 error rate average that came at the cost of longer execution times getting to around 18 hours. Dorado, on the other hand, exhibited reduced error rates with around 0.096 for the same model (so not as reduced as Guppy) with significantly lower runtimes particularly in the hac (35 minutes) and sup models (2 hours 15 minutes). Osprey could be compared to the fast model of the other basecallers, taking around 5 minutes and presenting an average error rate of 0.128 that did not surpass the performance of Dorado’s (0.124) or Guppy’s (0.114) fast model. Unfortunately, Heron was unable to assess due to significant installation issues that proved challenging to resolve. | es_ES |
dc.format.extent | 103 | es_ES |
dc.language | Inglés | es_ES |
dc.publisher | Universitat Politècnica de València | es_ES |
dc.rights | Reserva de todos los derechos | es_ES |
dc.subject | ONT | es_ES |
dc.subject | Basecalling | es_ES |
dc.subject | Bases DNA | es_ES |
dc.subject | Secuenciación | es_ES |
dc.subject | Algoritmos | es_ES |
dc.subject | DNA bases | es_ES |
dc.subject | Sequencing | es_ES |
dc.subject | Algorithms | es_ES |
dc.subject.classification | MATEMATICA APLICADA | es_ES |
dc.subject.other | Grado en Ingeniería Biomédica-Grau en Enginyeria Biomèdica | es_ES |
dc.title | ONT Base-calling using Deep Learning | es_ES |
dc.title.alternative | ONT Base-calling usando Deep Learning | es_ES |
dc.title.alternative | ONT Base-calling mitjançant l'aprenentatge profund | es_ES |
dc.type | Proyecto/Trabajo fin de carrera/grado | es_ES |
dc.rights.accessRights | Cerrado | es_ES |
dc.contributor.affiliation | Universitat Politècnica de València. Departamento de Matemática Aplicada - Departament de Matemàtica Aplicada | es_ES |
dc.contributor.affiliation | Universitat Politècnica de València. Escuela Técnica Superior de Ingenieros Industriales - Escola Tècnica Superior d'Enginyers Industrials | es_ES |
dc.description.bibliographicCitation | Paredes De Isla, J. (2023). ONT Base-calling using Deep Learning. Universitat Politècnica de València. http://hdl.handle.net/10251/197884 | es_ES |
dc.description.accrualMethod | TFGM | es_ES |
dc.relation.pasarela | TFGM\159123 | es_ES |