Análisis de datos de microbioma para la predicción y caracterización de enfermedades

Nieto Romero, María Camila

RiuNet repositorio UPV
:
Docencia
:
Trabajos académicos
:
Servicio de alumnado - Trabajos académicos
:
Ver ítem

Identificarse

Buscar en RiuNet

Listar

Todo RiuNet
Esta colección

Mi cuenta

Acceder

Estadísticas

Ver Estadísticas de uso

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Análisis de datos de microbioma para la predicción y caracterización de enfermedades

Mostrar el registro sencillo del ítem

Ficheros en el ítem

Nombre: Nieto - Analisis ...

Tamaño: 3.449Mb

Formato: PDF

Abrir

dc.contributor.advisor	Tarazona Campos, Sonia	es_ES
dc.contributor.author	Nieto Romero, María Camila	es_ES
dc.date.accessioned	2023-04-21T13:14:19Z
dc.date.available	2023-04-21T13:14:19Z
dc.date.created	2023-03-23
dc.date.issued	2023-04-21	es_ES
dc.identifier.uri	http://hdl.handle.net/10251/192903
dc.description.abstract	[ES] El microbioma humano constituye el conjunto de microorganismos (bacterias, arqueas, virus, hongos y protistas) que están en nuestro cuerpo, y se ha demostrado en múltiples investigaciones el rol fundamental que tiene en la salud, así como su relación con muy diversas enfermedades o con la respuesta de los pacientes a distintos tratamientos. En concreto, se ha probado que el análisis de la microbiota es de gran ayuda para la predicción y caracterización de enfermedades tales como diabetes, hepáticas, o intestinales, entre otras. Por ello, esta es una línea de investigación prometedora, ya que trata de mejorar el diagnóstico de diferentes enfermedades, lo cual supondría un avance importante para la medicina. Sin embargo, el análisis bioinformático y estadístico de datos de microbioma medidos con técnicas de secuenciación de alto rendimiento no está exento de retos. Por una parte, está la dimensión de los datos, ya que se trabaja con alrededor de 1000 variables pero con no más de 100 pacientes en la mayoría de los casos. Además, son datos con una alta variabilidad y ruido debido a la técnica, y con un elevado número de valores nulos. Esto implica que se debe elegir cuidadosamente el pre-proceso o transformación de los datos, previo al análisis estadístico. Por otra parte, se requieren modelos de clasificación que minimicen el error de predicción pero que funcionen bien bajo supuestos de multicolinealidad y que permitan una adecuada interpretación de los resultados, de tal forma que los biólogos, médicos, etc. puedan identificar qué microorganismos son más relevantes para el diagnóstico o tratamiento de la enfermedad estudiada. Todas estas cuestiones son todavía objeto de discusión entre la comunidad científica y aún están por definir unos procedimientos estandarizados para el análisis de este tipo de datos. Así pues, el objetivo de este estudio es contribuir al establecimiento de un protocolo de análisis, tanto en la parte del pre-proceso de los datos como en la metodología estadística empleada para su análisis. Para ello, se utilizará una colección de al menos 6 bases de datos de microbioma de pacientes sanos y enfermos públicamente accesibles para el estudio de 5 patologías diferentes: cirrosis hepática, enfermedad inflamatoria intestinal (Inflammatory Bowel Desease, IBD), obesidad, diabetes tipo 2 y cáncer colorrectal. Los métodos de aprendizaje automático comúnmente empleados en este tipo de análisis son la regresión logística, el Random Forest o las máquinas de soporte vectorial (SVM). Sin embargo, las metodologías basadas en la proyección sobre estructuras latentes como es la Regresión en Mínimos Cuadrados Parciales (PLS), han sido poco o nada utilizadas en la literatura para abordar este problema. En este trabajo, aplicaremos en concreto el PLS para el Análisis Discriminante (PLS-DA) como método de clasificación y compararemos los resultados con los obtenidos mediante los métodos mencionados para identificar las ventajas o desventajas de cada uno, así como la influencia del pre-procesado de los datos en dichos resultados.	es_ES
dc.description.abstract	[EN] The human microbiome is made up of the set of microorganisms (bacteria, archaea, viruses, fungi and protists) that are in our body, and the fundamental role it plays in health has been demonstrated in multiple investigations, as well as its relationship with very diverse diseases or with the response of patients to different treatments. Specifically, it has been proven that the analysis of the microbiota is of great help for the prediction and characterization of diseases such as diabetes, hepatic, or intestinal, among others. For this reason, this is a promising line of research, since it tries to improve the diagnosis and treatment of different diseases, which would mean an important advance for medicine. However, bioinformatics and statistical analysis of microbiome data measured with high-throughput sequencing techniques is not without its challenges. On the one hand, there is the dimension of the data, since we usually work with hundreds of variables but with no more than 100 patients in most cases. In addition, they are data with high variability and noise due to the technique, and with a high number of null values. This implies that the pre-processing or transformation of the data must be chosen carefully, prior to the statistical analysis. On the other hand, classification models are required that minimize the prediction error but that work well under assumptions of multicollinearity and that allow an adequate interpretation of the results, in such a way that biologists, doctors, etc. can identify which microorganisms are most relevant for the diagnosis or treatment of the disease studied. All these issues are still the subject of discussion among the scientific community and standardized procedures for the analysis of this type of data have yet to be defined.//[0.2cm] Thus, the objective of this study is to contribute to the establishment of an analysis protocol, both in the pre-processing of the data and in the statistical methodology used for its analysis. For this, a collection of 6 publicly accessible microbiome databases of healthy and sick patients will be used for the study of 5 different pathologies: liver cirrhosis, inflammatory bowel disease (Inflammatory Bowel Desease, IBD), obesity, type 2 diabetes and cancer. colorectal.//[0.2cm] The machine learning methods commonly used in this type of analysis are logistic regression, Random Forest or support vector machines (SVM). However, methodologies based on the projection on latent structures such as Regression in Partial Least Squares (PLS), have been little or not used in the literature to address this problem. In this paper, we will specifically apply the PLS Discriminant (PLS-DA) as a classification method and we will compare the results with those obtained by the aforementioned methods to identify the advantages or disadvantages of each one, as well as the influence of the pre-processing of the data in these results.	es_ES
dc.format.extent	77	es_ES
dc.language	Español	es_ES
dc.publisher	Universitat Politècnica de València	es_ES
dc.rights	Reserva de todos los derechos	es_ES
dc.subject	Regresión en mínimos cuadrados parciales (PLS)	es_ES
dc.subject	PLS Discriminante (PLS-DA)	es_ES
dc.subject	Microbioma humano	es_ES
dc.subject	Machine learning methods	es_ES
dc.subject	Aprendizaje automático	es_ES
dc.subject	Microbioma	es_ES
dc.subject	Métodos multivariantes	es_ES
dc.subject	Human microbioma	es_ES
dc.subject	Partial Least Squares regression (PLS)	es_ES
dc.subject	Discriminant PLS (PLS-DA)	es_ES
dc.subject.classification	ESTADISTICA E INVESTIGACION OPERATIVA	es_ES
dc.subject.other	Máster Universitario en Ingeniería de Análisis de Datos, Mejora de Procesos y Toma de Decisiones-Màster Universitari en Enginyeria D'Anàlisi de Dades, Millora de Processos i Presa de Decisions	es_ES
dc.title	Análisis de datos de microbioma para la predicción y caracterización de enfermedades	es_ES
dc.title.alternative	Microbiome data analysis for disease prediction and characterization	es_ES
dc.title.alternative	Anàlisi de dades de microbioma per a la predicció i caracterització d'enfermetats	es_ES
dc.type	Tesis de máster	es_ES
dc.rights.accessRights	Abierto	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Departamento de Estadística e Investigación Operativa Aplicadas y Calidad - Departament d'Estadística i Investigació Operativa Aplicades i Qualitat	es_ES
dc.description.bibliographicCitation	Nieto Romero, MC. (2023). Análisis de datos de microbioma para la predicción y caracterización de enfermedades. Universitat Politècnica de València. http://hdl.handle.net/10251/192903	es_ES
dc.description.accrualMethod	TFGM	es_ES
dc.relation.pasarela	TFGM\137663	es_ES

Este ítem aparece en la(s) siguiente(s) colección(ones)

Servicio de alumnado - Trabajos académicos [7391]

Mostrar el registro sencillo del ítem

Análisis de datos de microbioma para la predicción y caracterización de enfermedades

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Buscar en RiuNet

Listar

Todo RiuNet

Esta colección

Mi cuenta

Estadísticas

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Análisis de datos de microbioma para la predicción y caracterización de enfermedades

Ficheros en el ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)