- -

Análisis de datos de microbioma para la predicción y caracterización de enfermedades

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Compartir/Enviar a

Citas

Estadísticas

  • Estadisticas de Uso

Análisis de datos de microbioma para la predicción y caracterización de enfermedades

Mostrar el registro sencillo del ítem

Ficheros en el ítem

dc.contributor.advisor Tarazona Campos, Sonia es_ES
dc.contributor.author Nieto Romero, María Camila es_ES
dc.date.accessioned 2023-04-21T13:14:19Z
dc.date.available 2023-04-21T13:14:19Z
dc.date.created 2023-03-23
dc.date.issued 2023-04-21 es_ES
dc.identifier.uri http://hdl.handle.net/10251/192903
dc.description.abstract [ES] El microbioma humano constituye el conjunto de microorganismos (bacterias, arqueas, virus, hongos y protistas) que están en nuestro cuerpo, y se ha demostrado en múltiples investigaciones el rol fundamental que tiene en la salud, así como su relación con muy diversas enfermedades o con la respuesta de los pacientes a distintos tratamientos. En concreto, se ha probado que el análisis de la microbiota es de gran ayuda para la predicción y caracterización de enfermedades tales como diabetes, hepáticas, o intestinales, entre otras. Por ello, esta es una línea de investigación prometedora, ya que trata de mejorar el diagnóstico de diferentes enfermedades, lo cual supondría un avance importante para la medicina. Sin embargo, el análisis bioinformático y estadístico de datos de microbioma medidos con técnicas de secuenciación de alto rendimiento no está exento de retos. Por una parte, está la dimensión de los datos, ya que se trabaja con alrededor de 1000 variables pero con no más de 100 pacientes en la mayoría de los casos. Además, son datos con una alta variabilidad y ruido debido a la técnica, y con un elevado número de valores nulos. Esto implica que se debe elegir cuidadosamente el pre-proceso o transformación de los datos, previo al análisis estadístico. Por otra parte, se requieren modelos de clasificación que minimicen el error de predicción pero que funcionen bien bajo supuestos de multicolinealidad y que permitan una adecuada interpretación de los resultados, de tal forma que los biólogos, médicos, etc. puedan identificar qué microorganismos son más relevantes para el diagnóstico o tratamiento de la enfermedad estudiada. Todas estas cuestiones son todavía objeto de discusión entre la comunidad científica y aún están por definir unos procedimientos estandarizados para el análisis de este tipo de datos. Así pues, el objetivo de este estudio es contribuir al establecimiento de un protocolo de análisis, tanto en la parte del pre-proceso de los datos como en la metodología estadística empleada para su análisis. Para ello, se utilizará una colección de al menos 6 bases de datos de microbioma de pacientes sanos y enfermos públicamente accesibles para el estudio de 5 patologías diferentes: cirrosis hepática, enfermedad inflamatoria intestinal (Inflammatory Bowel Desease, IBD), obesidad, diabetes tipo 2 y cáncer colorrectal. Los métodos de aprendizaje automático comúnmente empleados en este tipo de análisis son la regresión logística, el Random Forest o las máquinas de soporte vectorial (SVM). Sin embargo, las metodologías basadas en la proyección sobre estructuras latentes como es la Regresión en Mínimos Cuadrados Parciales (PLS), han sido poco o nada utilizadas en la literatura para abordar este problema. En este trabajo, aplicaremos en concreto el PLS para el Análisis Discriminante (PLS-DA) como método de clasificación y compararemos los resultados con los obtenidos mediante los métodos mencionados para identificar las ventajas o desventajas de cada uno, así como la influencia del pre-procesado de los datos en dichos resultados. es_ES
dc.description.abstract [EN] The human microbiome is made up of the set of microorganisms (bacteria, archaea, viruses, fungi and protists) that are in our body, and the fundamental role it plays in health has been demonstrated in multiple investigations, as well as its relationship with very diverse diseases or with the response of patients to different treatments. Specifically, it has been proven that the analysis of the microbiota is of great help for the prediction and characterization of diseases such as diabetes, hepatic, or intestinal, among others. For this reason, this is a promising line of research, since it tries to improve the diagnosis and treatment of different diseases, which would mean an important advance for medicine. However, bioinformatics and statistical analysis of microbiome data measured with high-throughput sequencing techniques is not without its challenges. On the one hand, there is the dimension of the data, since we usually work with hundreds of variables but with no more than 100 patients in most cases. In addition, they are data with high variability and noise due to the technique, and with a high number of null values. This implies that the pre-processing or transformation of the data must be chosen carefully, prior to the statistical analysis. On the other hand, classification models are required that minimize the prediction error but that work well under assumptions of multicollinearity and that allow an adequate interpretation of the results, in such a way that biologists, doctors, etc. can identify which microorganisms are most relevant for the diagnosis or treatment of the disease studied. All these issues are still the subject of discussion among the scientific community and standardized procedures for the analysis of this type of data have yet to be defined.//[0.2cm] Thus, the objective of this study is to contribute to the establishment of an analysis protocol, both in the pre-processing of the data and in the statistical methodology used for its analysis. For this, a collection of 6 publicly accessible microbiome databases of healthy and sick patients will be used for the study of 5 different pathologies: liver cirrhosis, inflammatory bowel disease (Inflammatory Bowel Desease, IBD), obesity, type 2 diabetes and cancer. colorectal.//[0.2cm] The machine learning methods commonly used in this type of analysis are logistic regression, Random Forest or support vector machines (SVM). However, methodologies based on the projection on latent structures such as Regression in Partial Least Squares (PLS), have been little or not used in the literature to address this problem. In this paper, we will specifically apply the PLS Discriminant (PLS-DA) as a classification method and we will compare the results with those obtained by the aforementioned methods to identify the advantages or disadvantages of each one, as well as the influence of the pre-processing of the data in these results. es_ES
dc.format.extent 77 es_ES
dc.language Español es_ES
dc.publisher Universitat Politècnica de València es_ES
dc.rights Reserva de todos los derechos es_ES
dc.subject Regresión en mínimos cuadrados parciales (PLS) es_ES
dc.subject PLS Discriminante (PLS-DA) es_ES
dc.subject Microbioma humano es_ES
dc.subject Machine learning methods es_ES
dc.subject Aprendizaje automático es_ES
dc.subject Microbioma es_ES
dc.subject Métodos multivariantes es_ES
dc.subject Human microbioma es_ES
dc.subject Partial Least Squares regression (PLS) es_ES
dc.subject Discriminant PLS (PLS-DA) es_ES
dc.subject.classification ESTADISTICA E INVESTIGACION OPERATIVA es_ES
dc.subject.other Máster Universitario en Ingeniería de Análisis de Datos, Mejora de Procesos y Toma de Decisiones-Màster Universitari en Enginyeria D'Anàlisi de Dades, Millora de Processos i Presa de Decisions es_ES
dc.title Análisis de datos de microbioma para la predicción y caracterización de enfermedades es_ES
dc.title.alternative Microbiome data analysis for disease prediction and characterization es_ES
dc.title.alternative Anàlisi de dades de microbioma per a la predicció i caracterització d'enfermetats es_ES
dc.type Tesis de máster es_ES
dc.rights.accessRights Abierto es_ES
dc.contributor.affiliation Universitat Politècnica de València. Departamento de Estadística e Investigación Operativa Aplicadas y Calidad - Departament d'Estadística i Investigació Operativa Aplicades i Qualitat es_ES
dc.description.bibliographicCitation Nieto Romero, MC. (2023). Análisis de datos de microbioma para la predicción y caracterización de enfermedades. Universitat Politècnica de València. http://hdl.handle.net/10251/192903 es_ES
dc.description.accrualMethod TFGM es_ES
dc.relation.pasarela TFGM\137663 es_ES


Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem