Resumen:
|
[ES] La secuenciación de nanoporos ha evolucionado durante las últimas cuatro décadas y Oxford Nanopore Technologies la convirtió en una tecnología viable, que está disponible comercialmente desde 2015. Uno de los muchos ...[+]
[ES] La secuenciación de nanoporos ha evolucionado durante las últimas cuatro décadas y Oxford Nanopore Technologies la convirtió en una tecnología viable, que está disponible comercialmente desde 2015. Uno de los muchos pasos cruciales en la secuenciación de ONT es la llamada de base donde los cambios actuales (garabatos) medidos por el dispositivo MinION durante el paso de la hebra de ADN a través del poro se convierte en la secuencia de nucleótidos real. Se han propuesto varios enfoques basados en redes neuronales (NN) [7-11], que difieren en precisión y velocidad. El objetivo general de esta tesis de licenciatura es describir la arquitectura de red neuronal (NNA) de los diferentes enfoques y compararlos utilizando datos de secuenciación ONT adquiridos recientemente de diferentes tipos de poros. En concreto, se debe lograr lo siguiente:
1. Familiarícese con la secuenciación de ONT, el aprendizaje profundo en general y los diferentes NNA utilizados para la llamada de base de ONT en particular.
2. Configure un entorno de desarrollo que incluya Guppy (versión 3.30 y la más reciente), fast-bonito, Heron and Osprey, samtools, minimap2, BLAST y SeqKit.
3. Describa las NNA de los llamadores de base en términos de arquitectura, nodos de entrada, capas, nodos por capa, nodos de salida y número total de parámetros en la NN.
4. Evaluar la velocidad de los diferentes enfoques utilizando los datos de los experimentos de secuenciación ONT recientes de diferentes tipos de celdas de flujo. Trate de crear un modelo matemático para estimar el tiempo total de llamada de base para los diferentes tipos de celdas de flujo y llamadas de base en función de un tiempo de configuración, la cantidad de lecturas y su duración utilizando diferentes conjuntos de datos de muestreo descendente.
5. Evaluar la precisión de la llamada de base asignando las lecturas a un genoma de referencia de la especie secuenciada y utilizando samtools para determinar la tasa de error. Estratifique los errores en desajustes, eliminaciones, inserciones y errores en tramos de homopolímero.
6. Resumir el trabajo y los resultados en una tesis escrita
[-]
[EN] In the field of biological research, an essential procedure involves
sequencing, which encompasses the precise determination of the sequence
of nucleotides within DNA or RNA molecules. Nanopore sequencing
technology, ...[+]
[EN] In the field of biological research, an essential procedure involves
sequencing, which encompasses the precise determination of the sequence
of nucleotides within DNA or RNA molecules. Nanopore sequencing
technology, pioneered by Oxford Nanopore Technologies (ONT), is
founded on the concept of guiding DNA or RNA molecules through a
minute pore while monitoring changes in electrical current as each
nucleotide traverses the pore. In the ONT sequencing process, a critical
bottleneck arises during basecalling, a technique that converts the raw
electrical current data collected by a sequencing instrument into the
corresponding nucleotide sequence. To address this challenge, numerous
basecalling algorithms have been proposed for ONT data, many of which
rely on neural networks (NN). These algorithms vary in terms of accuracy
and speed. To evaluate the performance of these basecallers, we conducted
tests using raw data obtained from the organism Pichia pastoris. Specifically,
we assessed version 6.4.8 of Guppy, version 0.3.2 of Dorado, and their
modified basecalling algorithms across different models (fast, high
accuracy, and super accuracy), in addition to Heron and Osprey.
Subsequently, the results were aligned with a reference genome and
analyzed to determine various characteristics, such as runtime and error
rates. The findings revealed that the modified basecalling algorithms
exhibited nearly identical results compared to the unmodified version
across all models, although with a slight increase in runtime. Guppy
demonstrated the lowest error rates for all models. The model with the most
pronounced differences was the super accuracy with a 0.062 error rate
average that came at the cost of longer execution times getting to around 18
hours. Dorado, on the other hand, exhibited reduced error rates with
around 0.096 for the same model (so not as reduced as Guppy) with
significantly lower runtimes particularly in the hac (35 minutes) and sup
models (2 hours 15 minutes). Osprey could be compared to the fast model
of the other basecallers, taking around 5 minutes and presenting an average
error rate of 0.128 that did not surpass the performance of Dorado’s (0.124)
or Guppy’s (0.114) fast model. Unfortunately, Heron was unable to assess
due to significant installation issues that proved challenging to resolve.
[-]
|