Resumen:
|
[ES] La metagenómica es una disciplina que surge ante la imposibilidad de aislar y cultivar la (amplia) mayoría de los organismos microbianos que viven en los ecosistemas naturales. El término hace referencia al estudio ...[+]
[ES] La metagenómica es una disciplina que surge ante la imposibilidad de aislar y cultivar la (amplia) mayoría de los organismos microbianos que viven en los ecosistemas naturales. El término hace referencia al estudio del conjunto de genomas de los organismos que habitan una muestra natural, al fin de describir, quiénes son y cuáles son sus potencialidades genéticas. Gracias a los considerables avances en el campo de la biología molecular, las nuevas tecnologías de secuenciación masiva (Next Generation Sequencing, NGS) y la bioinformática, la metagenómica se postula como una de las disciplinas con mayor progreso, en la actualidad, en el campo de la ecología microbiana.
Una parte fundamental del análisis metagenómico son las herramientas bioinformáticas empleadas para analizar los resultados de secuenciación; aunque esta disciplina puede considerarse bastante reciente, existen ya una gran variedad de bases de datos, pipelines (flujo de trabajo) y programas. Con respecto a los pipelines, estos se desarrollan para la integración de diversos paquetes de software complementarios y para la automatización de los procesos; no obstante, al aumentar la complejidad del análisis aparecen obstáculos que dificultan el uso de pipelines de alto rendimiento: incompatibilidad entre los diferentes paquetes de software, requisitos de actualización contradictorios, gestión de un elevado número de archivos intermedios y temporales u optimización de los recursos de computación. A fin de solventar todos estos problemas, recientemente ha surgido un lenguaje específico de dominio (DLS) llamado Nextflow. Este permite la adaptación de pipelines escritos en cualquier lenguaje de programación. La elección de Nextflow para el desarrollo de un pipeline para análisis metagenómicos se justifica por características como el uso de tecnologías de contenedores multi-escala, su integración en repositorios de software, la paralelización y la definición de canales de entrada y salida para el inicio automático de cada sub-proceso. Además, el modelo de flujo de datos mejora a otras herramientas alternativas; ya que, el procesamiento ¿top-down¿ no necesita gran espacio de almacenamiento. En definitiva, Nextflow se presenta como una solución flexible y robusta debido a la simplificación, al control del flujo de datos y a la gestión de los resultados que se recogen de los análisis metagenómicos.
En esta tesis, se presenta un pipeline de análisis basado en Nextflow que recoge los pasos principales del análisis metagenómico. El pipeline propuesto proporciona al usuario una herramienta que evita el proceso de instalación de los programas necesarios en el análisis y ejecuta los pasos más dispendiosos desde el punto de vista comunicacional en el análisis metagenómico. El pipeline recibe como entrada los datos brutos a analizar, procedentes de una o más muestras y continua con los pasos de control de calidad, ensamblado, anotación y cuantificación de cada anotación. Finalmente, proporciona, de forma clara y resumida, los resultados necesarios para los siguientes análisis estadísticos descriptivos y/o diferenciales; actuando de forma transparente, robusta y altamente reproducible, acelerando los tiempos de ejecución, ahorrando espacio de almacenamiento para el análisis y optimizando así los recursos informáticos disponibles.
[-]
[EN] Metagenomics is a discipline that arose from the impossibility of isolating and cultivating most of microbial organisms that live in natural ecosystems. The term refers to the study of the genomes of the organisms ...[+]
[EN] Metagenomics is a discipline that arose from the impossibility of isolating and cultivating most of microbial organisms that live in natural ecosystems. The term refers to the study of the genomes of the organisms that inhabit a natural sample in order to describe which microorganisms they are and what their genetic potentialities are. Because of the considerable advances in the field of molecular biology, Next Generation Sequencing technologies (NGS) and bioinformatics, metagenomics is currently one of the most advanced disciplines in the field of microbial ecology.
The analysis of sequencing results is performed by bioinformatic tools that are an essential part of metagenomic analysis; although this discipline may be considered quite recent, a wide variety of databases, pipelines (workflows) and programs have been developed. Pipelines are used for the integration of different and complementary software packages, and for the automation of processes. However, as the complexity of the analysis increases, obstacles which hinder the use of high-performance pipelines appear: incompatibility between different software packages, conflicting upgrade requirements, management of a large number of intermediate and temporary files, and optimization of computing resources. In order to overcome all these problems, a domain-specific language (DLS) called Nextflow has recently emerged. Nextflow allows the adaptation of pipelines written in any programming language. The choice of Nextflow for the development of a metagenomic analysis pipeline is justified by features such as the use of multi-scale containerization, its integration with software repositories, parallelization and the definition of input and output channels for the automatic start of each sub-process. In addition, the data flow model improves other alternative tools, because the top to bottom processing does not require large storage space. In conclusion, Nextflow stands to be a flexible and robust solution owing to the simplification, data flow control and management of the results collected from metagenomic analysis.
In this thesis, a Nextflow-based analysis pipeline, that captures the main steps of metagenomic analysis, is presented. The workflow provides the user with a tool that avoids the process of installing the necessary programs for the analysis and executes the most complex and communicatively problematic stages in metagenomic analysis. The pipeline receives as input the raw data to be analyzed from one or more samples and it continues with the steps of quality control, assembly, annotation, and quantification of each annotation. Finally, it provides, in a clear and summarized way, the necessary results for the following descriptive and/or differential statistical analysis, acting in a transparent, robust and highly reproducible way, speeding up execution times, saving storage space for the analysis, and optimizing the available informatic resources.
[-]
|