Resumen:
|
[ES] Entender la relación entre la microbiota y la salud humana puede desempeñar un papel fundamental en la prevención, diagnóstico y tratamiento de las enfermedades. Sin embargo, el análisis estadístico de este tipo de ...[+]
[ES] Entender la relación entre la microbiota y la salud humana puede desempeñar un papel fundamental en la prevención, diagnóstico y tratamiento de las enfermedades. Sin embargo, el análisis estadístico de este tipo de datos conlleva importantes desafíos, ya que se trata de datos de alta dimensionalidad (más variables que observaciones), de naturaleza composicional y con posibles sesgos introducidos por la propia tecnología de secuenciación.
Este trabajo se centra en la aplicación y comparación de modelos de clasificación para la predicción de enfermedades a partir de datos de microbioma, y especialmente en las técnicas de selección de variables, con el objetivo de identificar las bacterias más relacionadas con una determinada enfermedad que puedan ser candidatas a biomarcadores para el diagnóstico o tratamiento de la misma. Específicamente, se utilizará el modelo de clasificación PLS-DA (Regresión en Mínimos Cuadrados Parciales Discriminante) y se compararán diversas estrategias de selección de variables, como el método Variable Importance in Projection (VIP), la significación de los coeficientes de regresión, el Selectivity Ratio (SR), entre otros. Además, se comparará el rendimiento de las técnicas PLS-DA con respecto a Random Forest y sus técnicas de selección, para evaluar el desempeño de estas frente a uno de los modelos más utilizados en este contexto.
Para ello, se cuenta con 6 bases de datos de microbioma que estudian distintas patologías, como la Diabetes tipo 2, la Cirrosis, entre otras. En cada una de ellas, se dispone de información sobre la microbiota de individuos sanos y enfermos. Se aplicarán las técnicas de selección, se buscarán los hiperparámetros óptimos mediante validación cruzada para optimizar el indicador F1-score, y se compararán los modelos utilizando modelos lineales mixtos.
Finalmente, se interpretarán algunos de los modelos con selección de variables, para analizar si las especies seleccionadas coinciden con los hallazgos reportados por otros estudios.
[-]
[EN] Understanding the relationship between the microbiome and human health could be crucial for the prevention, diagnosis, and treatment of diseases. However, analyzing this type of data is challenging due to its ...[+]
[EN] Understanding the relationship between the microbiome and human health could be crucial for the prevention, diagnosis, and treatment of diseases. However, analyzing this type of data is challenging due to its high-dimensional structure, compositional nature, and biases introduced by sequencing technologies.
This study focuses on implementing and comparing classification models to predict diseases using microbiome data, emphasizing feature selection techniques. The main goal is to identify which species are more closely associated with a particular disease, as these species could serve as potential biomarkers for diagnosis and treatment. Feature selection will allow for the development of more interpretable and accurate models that can be used in a clinical context. Partial Least-Squares Discriminant Analysis (PLS-DA) is the primary model applied, and its performance will be compared with various feature selection techniques such as Variable Importance in Projection (VIP), regression coefficients (RC), Selectivity Ratio (SR), among others. Additionally, PLS-DA techniques will be benchmarked against Random Forest and its feature selection methods, as it is one of the most commonly used models in this type of analysis.
The data consist of six metagenomic datasets spanning diseases such as Type 2 Diabetes, Liver Cirrhosis, among others. Each dataset contains microbiome abundance from both healthy and diseased samples. Classification models with feature selection techniques will be applied to this data. Hyperparameter tuning is performed using a cross-validation structure, maximizing the F1-score, and optimal models are compared using linear mixed models.
Finally, some models with feature selection are interpreted to analyze whether the identified species align with findings from other studies.
[-]
|