- -

ONT Base-calling using Deep Learning

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Compartir/Enviar a

Citas

Estadísticas

  • Estadisticas de Uso

ONT Base-calling using Deep Learning

Mostrar el registro sencillo del ítem

Ficheros en el ítem

dc.contributor.advisor Corral Ortega, Cristina es_ES
dc.contributor.advisor Thallinger, Gerhard es_ES
dc.contributor.author Paredes de Isla, Julia es_ES
dc.date.accessioned 2023-10-10T10:19:00Z
dc.date.available 2023-10-10T10:19:00Z
dc.date.created 2023-09-07
dc.date.issued 2023-10-10 es_ES
dc.identifier.uri http://hdl.handle.net/10251/197884
dc.description.abstract [ES] La secuenciación de nanoporos ha evolucionado durante las últimas cuatro décadas y Oxford Nanopore Technologies la convirtió en una tecnología viable, que está disponible comercialmente desde 2015. Uno de los muchos pasos cruciales en la secuenciación de ONT es la llamada de base donde los cambios actuales (garabatos) medidos por el dispositivo MinION durante el paso de la hebra de ADN a través del poro se convierte en la secuencia de nucleótidos real. Se han propuesto varios enfoques basados en redes neuronales (NN) [7-11], que difieren en precisión y velocidad. El objetivo general de esta tesis de licenciatura es describir la arquitectura de red neuronal (NNA) de los diferentes enfoques y compararlos utilizando datos de secuenciación ONT adquiridos recientemente de diferentes tipos de poros. En concreto, se debe lograr lo siguiente: 1. Familiarícese con la secuenciación de ONT, el aprendizaje profundo en general y los diferentes NNA utilizados para la llamada de base de ONT en particular. 2. Configure un entorno de desarrollo que incluya Guppy (versión 3.30 y la más reciente), fast-bonito, Heron and Osprey, samtools, minimap2, BLAST y SeqKit. 3. Describa las NNA de los llamadores de base en términos de arquitectura, nodos de entrada, capas, nodos por capa, nodos de salida y número total de parámetros en la NN. 4. Evaluar la velocidad de los diferentes enfoques utilizando los datos de los experimentos de secuenciación ONT recientes de diferentes tipos de celdas de flujo. Trate de crear un modelo matemático para estimar el tiempo total de llamada de base para los diferentes tipos de celdas de flujo y llamadas de base en función de un tiempo de configuración, la cantidad de lecturas y su duración utilizando diferentes conjuntos de datos de muestreo descendente. 5. Evaluar la precisión de la llamada de base asignando las lecturas a un genoma de referencia de la especie secuenciada y utilizando samtools para determinar la tasa de error. Estratifique los errores en desajustes, eliminaciones, inserciones y errores en tramos de homopolímero. 6. Resumir el trabajo y los resultados en una tesis escrita es_ES
dc.description.abstract [EN] In the field of biological research, an essential procedure involves sequencing, which encompasses the precise determination of the sequence of nucleotides within DNA or RNA molecules. Nanopore sequencing technology, pioneered by Oxford Nanopore Technologies (ONT), is founded on the concept of guiding DNA or RNA molecules through a minute pore while monitoring changes in electrical current as each nucleotide traverses the pore. In the ONT sequencing process, a critical bottleneck arises during basecalling, a technique that converts the raw electrical current data collected by a sequencing instrument into the corresponding nucleotide sequence. To address this challenge, numerous basecalling algorithms have been proposed for ONT data, many of which rely on neural networks (NN). These algorithms vary in terms of accuracy and speed. To evaluate the performance of these basecallers, we conducted tests using raw data obtained from the organism Pichia pastoris. Specifically, we assessed version 6.4.8 of Guppy, version 0.3.2 of Dorado, and their modified basecalling algorithms across different models (fast, high accuracy, and super accuracy), in addition to Heron and Osprey. Subsequently, the results were aligned with a reference genome and analyzed to determine various characteristics, such as runtime and error rates. The findings revealed that the modified basecalling algorithms exhibited nearly identical results compared to the unmodified version across all models, although with a slight increase in runtime. Guppy demonstrated the lowest error rates for all models. The model with the most pronounced differences was the super accuracy with a 0.062 error rate average that came at the cost of longer execution times getting to around 18 hours. Dorado, on the other hand, exhibited reduced error rates with around 0.096 for the same model (so not as reduced as Guppy) with significantly lower runtimes particularly in the hac (35 minutes) and sup models (2 hours 15 minutes). Osprey could be compared to the fast model of the other basecallers, taking around 5 minutes and presenting an average error rate of 0.128 that did not surpass the performance of Dorado’s (0.124) or Guppy’s (0.114) fast model. Unfortunately, Heron was unable to assess due to significant installation issues that proved challenging to resolve. es_ES
dc.format.extent 103 es_ES
dc.language Inglés es_ES
dc.publisher Universitat Politècnica de València es_ES
dc.rights Reserva de todos los derechos es_ES
dc.subject ONT es_ES
dc.subject Basecalling es_ES
dc.subject Bases DNA es_ES
dc.subject Secuenciación es_ES
dc.subject Algoritmos es_ES
dc.subject DNA bases es_ES
dc.subject Sequencing es_ES
dc.subject Algorithms es_ES
dc.subject.classification MATEMATICA APLICADA es_ES
dc.subject.other Grado en Ingeniería Biomédica-Grau en Enginyeria Biomèdica es_ES
dc.title ONT Base-calling using Deep Learning es_ES
dc.title.alternative ONT Base-calling usando Deep Learning es_ES
dc.title.alternative ONT Base-calling mitjançant l'aprenentatge profund es_ES
dc.type Proyecto/Trabajo fin de carrera/grado es_ES
dc.rights.accessRights Cerrado es_ES
dc.contributor.affiliation Universitat Politècnica de València. Departamento de Matemática Aplicada - Departament de Matemàtica Aplicada es_ES
dc.contributor.affiliation Universitat Politècnica de València. Escuela Técnica Superior de Ingenieros Industriales - Escola Tècnica Superior d'Enginyers Industrials es_ES
dc.description.bibliographicCitation Paredes De Isla, J. (2023). ONT Base-calling using Deep Learning. Universitat Politècnica de València. http://hdl.handle.net/10251/197884 es_ES
dc.description.accrualMethod TFGM es_ES
dc.relation.pasarela TFGM\159123 es_ES


Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem