Resumen:
|
[ES] El microbioma humano constituye el conjunto de microorganismos (bacterias, arqueas, virus, hongos y protistas) que están en nuestro cuerpo, y se ha demostrado en múltiples investigaciones el rol fundamental que tiene ...[+]
[ES] El microbioma humano constituye el conjunto de microorganismos (bacterias, arqueas, virus, hongos y protistas) que están en nuestro cuerpo, y se ha demostrado en múltiples investigaciones el rol fundamental que tiene en la salud, así como su relación con muy diversas enfermedades o con la respuesta de los pacientes a distintos tratamientos. En concreto, se ha probado que el análisis de la microbiota es de gran ayuda para la predicción y caracterización de enfermedades tales como diabetes, hepáticas, o intestinales, entre otras. Por ello, esta es una línea de investigación prometedora, ya que trata de mejorar el diagnóstico de diferentes enfermedades, lo cual supondría un avance importante para la medicina.
Sin embargo, el análisis bioinformático y estadístico de datos de microbioma medidos con técnicas de secuenciación de alto rendimiento no está exento de retos. Por una parte, está la dimensión de los datos, ya que se trabaja con alrededor de 1000 variables pero con no más de 100 pacientes en la mayoría de los casos. Además, son datos con una alta variabilidad y ruido debido a la técnica, y con un elevado número de valores nulos. Esto implica que se debe elegir cuidadosamente el pre-proceso o transformación de los datos, previo al análisis estadístico. Por otra parte, se requieren modelos de clasificación que minimicen el error de predicción pero que funcionen bien bajo supuestos de multicolinealidad y que permitan una adecuada interpretación de los resultados, de tal forma que los biólogos, médicos, etc. puedan identificar qué microorganismos son más relevantes para el diagnóstico o tratamiento de la enfermedad estudiada. Todas estas cuestiones son todavía objeto de discusión entre la comunidad científica y aún están por definir unos procedimientos estandarizados para el análisis de este tipo de datos.
Así pues, el objetivo de este estudio es contribuir al establecimiento de un protocolo de análisis, tanto en la parte del pre-proceso de los datos como en la metodología estadística empleada para su análisis. Para ello, se utilizará una colección de al menos 6 bases de datos de microbioma de pacientes sanos y enfermos públicamente accesibles para el estudio de 5 patologías diferentes: cirrosis hepática, enfermedad inflamatoria intestinal (Inflammatory Bowel Desease, IBD), obesidad, diabetes tipo 2 y cáncer colorrectal.
Los métodos de aprendizaje automático comúnmente empleados en este tipo de análisis son la regresión logística, el Random Forest o las máquinas de soporte vectorial (SVM). Sin embargo, las metodologías basadas en la proyección sobre estructuras latentes como es la Regresión en Mínimos Cuadrados Parciales (PLS), han sido poco o nada utilizadas en la literatura para abordar este problema. En este trabajo, aplicaremos en concreto el PLS para el Análisis Discriminante (PLS-DA) como método de clasificación y compararemos los resultados con los obtenidos mediante los métodos mencionados para identificar las ventajas o desventajas de cada uno, así como la influencia del pre-procesado de los datos en dichos resultados.
[-]
[EN] The human microbiome is made up of the set of microorganisms (bacteria, archaea, viruses, fungi and
protists) that are in our body, and the fundamental role it plays in health has been demonstrated in
multiple ...[+]
[EN] The human microbiome is made up of the set of microorganisms (bacteria, archaea, viruses, fungi and
protists) that are in our body, and the fundamental role it plays in health has been demonstrated in
multiple investigations, as well as its relationship with very diverse diseases or with the response of
patients to different treatments. Specifically, it has been proven that the analysis of the microbiota is of
great help for the prediction and characterization of diseases such as diabetes, hepatic, or intestinal,
among others. For this reason, this is a promising line of research, since it tries to improve the diagnosis
and treatment of different diseases, which would mean an important advance for medicine.
However, bioinformatics and statistical analysis of microbiome data measured with high-throughput
sequencing techniques is not without its challenges. On the one hand, there is the dimension of the data,
since we usually work with hundreds of variables but with no more than 100 patients in most cases. In
addition, they are data with high variability and noise due to the technique, and with a high number of
null values. This implies that the pre-processing or transformation of the data must be chosen carefully,
prior to the statistical analysis. On the other hand, classification models are required that minimize the
prediction error but that work well under assumptions of multicollinearity and that allow an adequate
interpretation of the results, in such a way that biologists, doctors, etc. can identify which
microorganisms are most relevant for the diagnosis or treatment of the disease studied. All these issues
are still the subject of discussion among the scientific community and standardized procedures for the
analysis of this type of data have yet to be defined.//[0.2cm]
Thus, the objective of this study is to contribute to the establishment of an analysis protocol, both in the
pre-processing of the data and in the statistical methodology used for its analysis. For this, a collection
of 6 publicly accessible microbiome databases of healthy and sick patients will be used for the study of 5
different pathologies: liver cirrhosis, inflammatory bowel disease (Inflammatory Bowel Desease, IBD),
obesity, type 2 diabetes and cancer. colorectal.//[0.2cm]
The machine learning methods commonly used in this type of analysis are logistic regression, Random
Forest or support vector machines (SVM). However, methodologies based on the projection on latent
structures such as Regression in Partial Least Squares (PLS), have been little or not used in the literature
to address this problem. In this paper, we will specifically apply the PLS Discriminant (PLS-DA) as a
classification method and we will compare the results with those obtained by the aforementioned
methods to identify the advantages or disadvantages of each one, as well as the influence of the
pre-processing of the data in these results.
[-]
|