Selección de variables en PLS-DA para la predicción de enfermedad con datos de microbioma

Beltrán Lastra, Samuel

RiuNet repositorio UPV
:
Docencia
:
Trabajos académicos
:
Servicio de alumnado - Trabajos académicos
:
Ver ítem

Identificarse

Buscar en RiuNet

Listar

Todo RiuNet
Esta colección

Mi cuenta

Acceder

Estadísticas

Ver Estadísticas de uso

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Selección de variables en PLS-DA para la predicción de enfermedad con datos de microbioma

Mostrar el registro sencillo del ítem

Ficheros en el ítem

Nombre: Beltran - Seleccion ...

Tamaño: 1.780Mb

Formato: PDF

Abrir

dc.contributor.advisor	Tarazona Campos, Sonia	es_ES
dc.contributor.author	Beltrán Lastra, Samuel	es_ES
dc.date.accessioned	2024-10-13T21:16:47Z
dc.date.available	2024-10-13T21:16:47Z
dc.date.created	2024-09-25
dc.date.issued	2024-10-13	es_ES
dc.identifier.uri	http://hdl.handle.net/10251/209994
dc.description.abstract	[ES] Entender la relación entre la microbiota y la salud humana puede desempeñar un papel fundamental en la prevención, diagnóstico y tratamiento de las enfermedades. Sin embargo, el análisis estadístico de este tipo de datos conlleva importantes desafíos, ya que se trata de datos de alta dimensionalidad (más variables que observaciones), de naturaleza composicional y con posibles sesgos introducidos por la propia tecnología de secuenciación. Este trabajo se centra en la aplicación y comparación de modelos de clasificación para la predicción de enfermedades a partir de datos de microbioma, y especialmente en las técnicas de selección de variables, con el objetivo de identificar las bacterias más relacionadas con una determinada enfermedad que puedan ser candidatas a biomarcadores para el diagnóstico o tratamiento de la misma. Específicamente, se utilizará el modelo de clasificación PLS-DA (Regresión en Mínimos Cuadrados Parciales Discriminante) y se compararán diversas estrategias de selección de variables, como el método Variable Importance in Projection (VIP), la significación de los coeficientes de regresión, el Selectivity Ratio (SR), entre otros. Además, se comparará el rendimiento de las técnicas PLS-DA con respecto a Random Forest y sus técnicas de selección, para evaluar el desempeño de estas frente a uno de los modelos más utilizados en este contexto. Para ello, se cuenta con 6 bases de datos de microbioma que estudian distintas patologías, como la Diabetes tipo 2, la Cirrosis, entre otras. En cada una de ellas, se dispone de información sobre la microbiota de individuos sanos y enfermos. Se aplicarán las técnicas de selección, se buscarán los hiperparámetros óptimos mediante validación cruzada para optimizar el indicador F1-score, y se compararán los modelos utilizando modelos lineales mixtos. Finalmente, se interpretarán algunos de los modelos con selección de variables, para analizar si las especies seleccionadas coinciden con los hallazgos reportados por otros estudios.	es_ES
dc.description.abstract	[EN] Understanding the relationship between the microbiome and human health could be crucial for the prevention, diagnosis, and treatment of diseases. However, analyzing this type of data is challenging due to its high-dimensional structure, compositional nature, and biases introduced by sequencing technologies. This study focuses on implementing and comparing classification models to predict diseases using microbiome data, emphasizing feature selection techniques. The main goal is to identify which species are more closely associated with a particular disease, as these species could serve as potential biomarkers for diagnosis and treatment. Feature selection will allow for the development of more interpretable and accurate models that can be used in a clinical context. Partial Least-Squares Discriminant Analysis (PLS-DA) is the primary model applied, and its performance will be compared with various feature selection techniques such as Variable Importance in Projection (VIP), regression coefficients (RC), Selectivity Ratio (SR), among others. Additionally, PLS-DA techniques will be benchmarked against Random Forest and its feature selection methods, as it is one of the most commonly used models in this type of analysis. The data consist of six metagenomic datasets spanning diseases such as Type 2 Diabetes, Liver Cirrhosis, among others. Each dataset contains microbiome abundance from both healthy and diseased samples. Classification models with feature selection techniques will be applied to this data. Hyperparameter tuning is performed using a cross-validation structure, maximizing the F1-score, and optimal models are compared using linear mixed models. Finally, some models with feature selection are interpreted to analyze whether the identified species align with findings from other studies.	es_ES
dc.format.extent	75	es_ES
dc.language	Español	es_ES
dc.publisher	Universitat Politècnica de València	es_ES
dc.rights	Reserva de todos los derechos	es_ES
dc.subject	Partial Least-Squares Discriminant Analysis (PLS-DA)	es_ES
dc.subject	Selección de variables	es_ES
dc.subject	Microbioma	es_ES
dc.subject	Modelos de clasificación	es_ES
dc.subject	Feature selection	es_ES
dc.subject	Microbiome	es_ES
dc.subject	Classification models	es_ES
dc.subject.classification	ESTADISTICA E INVESTIGACION OPERATIVA	es_ES
dc.subject.other	Máster Universitario en Ingeniería de Análisis de Datos, Mejora de Procesos y Toma de Decisiones-Màster Universitari en Enginyeria d'Anàlisi de Dades, Millora de Processos i Presa de decisions	es_ES
dc.title	Selección de variables en PLS-DA para la predicción de enfermedad con datos de microbioma	es_ES
dc.title.alternative	Variable selection in PLS-DA for disease prediction from microbiome data	es_ES
dc.title.alternative	Selecció de variables en PLS-DA per a la predicció d'enfermetat amb dades de microbioma	es_ES
dc.type	Tesis de máster	es_ES
dc.rights.accessRights	Abierto	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Departamento de Estadística e Investigación Operativa Aplicadas y Calidad - Departament d'Estadística i Investigació Operativa Aplicades i Qualitat	es_ES
dc.description.bibliographicCitation	Beltrán Lastra, S. (2024). Selección de variables en PLS-DA para la predicción de enfermedad con datos de microbioma. Universitat Politècnica de València. http://hdl.handle.net/10251/209994	es_ES
dc.description.accrualMethod	TFGM	es_ES
dc.relation.pasarela	TFGM\153364	es_ES

Este ítem aparece en la(s) siguiente(s) colección(ones)

Servicio de alumnado - Trabajos académicos [7391]

Mostrar el registro sencillo del ítem

Selección de variables en PLS-DA para la predicción de enfermedad con datos de microbioma

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Buscar en RiuNet

Listar

Todo RiuNet

Esta colección

Mi cuenta

Estadísticas

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Selección de variables en PLS-DA para la predicción de enfermedad con datos de microbioma

Ficheros en el ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)