Resumen:
|
[ES] Este trabajo se centra en el estudio del microbioma intestinal de chimpancés, humanos y
gorilas, debido a la importancia de éste para el buen funcionamiento de los organismos. El
estudio se enmarca en el área de la ...[+]
[ES] Este trabajo se centra en el estudio del microbioma intestinal de chimpancés, humanos y
gorilas, debido a la importancia de éste para el buen funcionamiento de los organismos. El
estudio se enmarca en el área de la metagenómica, ciencia encargada del estudio de estos
microorganismos. La mayoría de trabajos realizados en este campo se han realizado mediante
secuenciación 16S rRNA, sobre todo en microbiomas distintos al humano. Sin embargo, el
rápido avance de las tecnologías ómicas está propiciando la aparición de datos secuenciados
mediante shotgun. Esta situación plantea un desafío debido a la incompatibilidad de los
resultados taxonómicos obtenidos con cada secuenciación lo que imposibilita su uso
conjunto.
Para abordar este problema, recientemente se propuso la herramienta Greengenes2, una
biblioteca creada para integrar datos de 16S rRNA y shotgun. Sin embargo, ha sido utilizada
únicamente en estudios humanos, por lo que su capacidad para trabajar con datos de
especies menos estudiadas como chimpancés aún no ha sido evaluada.
El objetivo de este trabajo será valorar si es posible realizar predicciones precisas sobre una
variable categórica, estudiando así la funcionalidad de Greengenes2 y su capacidad de juntar
datos de ambas técnicas. Se busco predecir si una muestra provenía de un chimpancé o gorila
salvaje, de Uganda o del Congo, de un humano del Congo o de un chimpancé o gorila cautivo
de diferentes zoos de Estados Unidos.
Para ello, se emplearon diferentes modelos estadísticos, PLS-DA, regresión logística
multinomial con LASSO, SIMCA y Random Forest, para poder clasificar las muestras y
determinar qué variables son importantes para dichas clasificaciones, es decir, estudiar que
phylums bacterianos determinan la clasificación. Además, se aplicarán diferentes
metodologías de normalización para intentar mitigar los efectos de las diferentes tecnologías
de secuenciación y de otras posibles fuentes. También se estudió el efecto de dos métodos
de balanceo de clases, SMOTE y Down Sample.
Las mejores combinaciones de cada método de predicción se compararon entre si y frente a
la metodología propuesta para el uso de Greegenes2, la comparación de muestras a través
de una matriz de distancia calculada con el método weighted UniFrac, utilizando para ello un
análisis ANOVA. Para realizar las clasificaciones mediante la matriz de distancias se empleó el
algoritmo de K-Vecinos Más Próximos. Los resultados de los diferentes métodos de
clasificación propuestos se valoraron mediante el estadístico del Área Bajo la Curva,
modificado para un caso de clasificación multinomial, y el estadístico DMCEN.
El mejor modelo de clasificación fue el Random Forest con la normalización BMC; corrigiendo
los efectos batch de la tecnología de secuenciación, la especie, el estudio y la región de
procedencia de las muestras, junto con un balanceo de clases mediante SMOTE. Los
resultados obtenidos mejoraron ampliamente los del método de weighted UniFrac propuesto
en la bibliografía.
Los phylums que se consideraron más importantes, al aparecer en los mejores modelos para
cada método de predicción, fueron Bacteroidota, Actinobacteriota y Spirochaeota. Estos
phylums habían aparecido ya en estudios previos asociados tanto a chimpancés, humanos y
gorilas permitiendo diferenciar entre salvajes y cautivos por lo que los resultados concuerdan
con la bibliografía.
Por tanto, se demostró que Greengenes2 puede trabajar en este contexto biológico.
[-]
|