Resumen:
|
[ES] La anotación estructural de un genoma es el proceso de identificar los elementos genómicos, tales como genes y elementos transponibles, presentes en su secuencia, mientras que la anotación funcional es el proceso por ...[+]
[ES] La anotación estructural de un genoma es el proceso de identificar los elementos genómicos, tales como genes y elementos transponibles, presentes en su secuencia, mientras que la anotación funcional es el proceso por el cual se asigna una función biológica y/o molecular a un gen basado en la homología de secuencia de la proteína que codifica con proteínas de función conocida. Este trabajo consiste en la re-anotación del genoma de la especie vegetal Petunia axillaris, tanto estructural como funcionalmente usando datos públicos, así como en la evaluación de la calidad de esta anotación. El proceso de anotación de los modelos genéticos se realiza mediante dos enfoques: mediante el alineamiento de una secuencia proveniente de un experimento (evidencia experimental) y mediante el uso de modelos de predicción ab-initio. Para el primer caso, se alinea una secuencia de una proteína y/o un transcriptoma con el genoma de interés; y en el segundo caso, se escanea la secuencia del genoma buscando patrones asociados a secuencias codificantes a través de modelos ocultos de Markov (HMM) que han sido previamente entrenados con datos experimentales. Una vez los modelos génicos fueron obtenidos, estos se evaluaron mediante tres metodologías: 1- métricas sobre su longitud, número de exones por gen y número de genes totales; 2- métricas sobre el porcentaje de genes conservados que han sido anotados con la herramienta BUSCO; 3- métricas sobre la distancia de cada modelo génico a su evidencia a través del parámetro AED. En este trabajo se han considerado diferentes tipos de evidencias (proteínas de distintas especies y datos transcriptómicos de distintos tejidos), así como programas de predicción como es BRAKER3. Como resultado de este trabajo se identificaron 1.562.383 elementos repetitivos (67,58 % del genoma), siendo su mayoría elementos transponibles de tipo LTR los cuales representaban el 35, 21% del genoma. Más de 30,000 modelos génicos fueron identificados con cada una de las metodologías, aunque fue el uso del programa BRAKER3 el que produjo los mejores resultados, habiendo identificado 34.402 genes. Estos resultados también demuestran que el uso de una combinación de distintos sets de datos de proteínas de genomas bien anotados como Arabidopsis y tomate, junto a datos transcriptómicos de una gran variedad de tejidos y un filtrado de las predicciones, es esencial para producir una anotación de calidad.
[-]
[EN] The structural annotation of a genome is the process of identifying genomic elements, such as genes and transposable elements, present in its sequence. Functional annotation, on the other hand, is the process by which ...[+]
[EN] The structural annotation of a genome is the process of identifying genomic elements, such as genes and transposable elements, present in its sequence. Functional annotation, on the other hand, is the process by which a biological and/or molecular function is assigned to a gene based on the sequence homology of the protein it encodes with proteins of known function. This work involves the re-annotation of the genome of the plant species *Petunia axillaris*, both structurally and functionally, using public data, as well as the evaluation of the quality of this annotation.
The annotation process of genetic models is carried out using two approaches: alignment of a sequence from an experiment (experimental evidence) and the use of ab-initio prediction models. For the first case, a sequence of a protein and/or a transcriptome is aligned with the genome of interest; in the second case, the genome sequence is scanned for patterns associated with coding sequences using Hidden Markov Models (HMM) that have been previously trained with experimental data. Once the gene models have been obtained, they were evaluated using three methodologies: 1- metrics on their length, number of exons per gene, and total number of genes; 2- metrics on the percentage of conserved genes that have been annotated with the BUSCO tool; 3- metrics on the distance of each gene model to its evidence through the AED parameter. This work considered different types of evidence (proteins from various species and transcriptomic data from different tissues), as well as prediction programs such as BRAKER3.
As a result of this work, 1,562,383 repetitive elements (67.58% of the genome) were identified, the majority being LTR-type transposable elements, which represented 35.21% of the genome. More than 30,000 gene models were identified with each of the methodologies, although the use of the BRAKER3 program produced the best results, identifying 34,402 genes. These results also demonstrate that the use of a combination of different sets of protein data from well-annotated genomes such as Arabidopsis and tomato, along with transcriptomic data from a wide variety of tissues and filtering of predictions, is essential to produce a quality annotation.
[-]
|