- -

Selección de variables en PLS-DA para la predicción de enfermedad con datos de microbioma

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Compartir/Enviar a

Citas

Estadísticas

  • Estadisticas de Uso

Selección de variables en PLS-DA para la predicción de enfermedad con datos de microbioma

Mostrar el registro sencillo del ítem

Ficheros en el ítem

dc.contributor.advisor Tarazona Campos, Sonia es_ES
dc.contributor.author Beltrán Lastra, Samuel es_ES
dc.date.accessioned 2024-10-13T21:16:47Z
dc.date.available 2024-10-13T21:16:47Z
dc.date.created 2024-09-25
dc.date.issued 2024-10-13 es_ES
dc.identifier.uri http://hdl.handle.net/10251/209994
dc.description.abstract [ES] Entender la relación entre la microbiota y la salud humana puede desempeñar un papel fundamental en la prevención, diagnóstico y tratamiento de las enfermedades. Sin embargo, el análisis estadístico de este tipo de datos conlleva importantes desafíos, ya que se trata de datos de alta dimensionalidad (más variables que observaciones), de naturaleza composicional y con posibles sesgos introducidos por la propia tecnología de secuenciación. Este trabajo se centra en la aplicación y comparación de modelos de clasificación para la predicción de enfermedades a partir de datos de microbioma, y especialmente en las técnicas de selección de variables, con el objetivo de identificar las bacterias más relacionadas con una determinada enfermedad que puedan ser candidatas a biomarcadores para el diagnóstico o tratamiento de la misma. Específicamente, se utilizará el modelo de clasificación PLS-DA (Regresión en Mínimos Cuadrados Parciales Discriminante) y se compararán diversas estrategias de selección de variables, como el método Variable Importance in Projection (VIP), la significación de los coeficientes de regresión, el Selectivity Ratio (SR), entre otros. Además, se comparará el rendimiento de las técnicas PLS-DA con respecto a Random Forest y sus técnicas de selección, para evaluar el desempeño de estas frente a uno de los modelos más utilizados en este contexto. Para ello, se cuenta con 6 bases de datos de microbioma que estudian distintas patologías, como la Diabetes tipo 2, la Cirrosis, entre otras. En cada una de ellas, se dispone de información sobre la microbiota de individuos sanos y enfermos. Se aplicarán las técnicas de selección, se buscarán los hiperparámetros óptimos mediante validación cruzada para optimizar el indicador F1-score, y se compararán los modelos utilizando modelos lineales mixtos. Finalmente, se interpretarán algunos de los modelos con selección de variables, para analizar si las especies seleccionadas coinciden con los hallazgos reportados por otros estudios. es_ES
dc.description.abstract [EN] Understanding the relationship between the microbiome and human health could be crucial for the prevention, diagnosis, and treatment of diseases. However, analyzing this type of data is challenging due to its high-dimensional structure, compositional nature, and biases introduced by sequencing technologies. This study focuses on implementing and comparing classification models to predict diseases using microbiome data, emphasizing feature selection techniques. The main goal is to identify which species are more closely associated with a particular disease, as these species could serve as potential biomarkers for diagnosis and treatment. Feature selection will allow for the development of more interpretable and accurate models that can be used in a clinical context. Partial Least-Squares Discriminant Analysis (PLS-DA) is the primary model applied, and its performance will be compared with various feature selection techniques such as Variable Importance in Projection (VIP), regression coefficients (RC), Selectivity Ratio (SR), among others. Additionally, PLS-DA techniques will be benchmarked against Random Forest and its feature selection methods, as it is one of the most commonly used models in this type of analysis. The data consist of six metagenomic datasets spanning diseases such as Type 2 Diabetes, Liver Cirrhosis, among others. Each dataset contains microbiome abundance from both healthy and diseased samples. Classification models with feature selection techniques will be applied to this data. Hyperparameter tuning is performed using a cross-validation structure, maximizing the F1-score, and optimal models are compared using linear mixed models. Finally, some models with feature selection are interpreted to analyze whether the identified species align with findings from other studies. es_ES
dc.format.extent 75 es_ES
dc.language Español es_ES
dc.publisher Universitat Politècnica de València es_ES
dc.rights Reserva de todos los derechos es_ES
dc.subject Partial Least-Squares Discriminant Analysis (PLS-DA) es_ES
dc.subject Selección de variables es_ES
dc.subject Microbioma es_ES
dc.subject Modelos de clasificación es_ES
dc.subject Feature selection es_ES
dc.subject Microbiome es_ES
dc.subject Classification models es_ES
dc.subject.classification ESTADISTICA E INVESTIGACION OPERATIVA es_ES
dc.subject.other Máster Universitario en Ingeniería de Análisis de Datos, Mejora de Procesos y Toma de Decisiones-Màster Universitari en Enginyeria d'Anàlisi de Dades, Millora de Processos i Presa de decisions es_ES
dc.title Selección de variables en PLS-DA para la predicción de enfermedad con datos de microbioma es_ES
dc.title.alternative Variable selection in PLS-DA for disease prediction from microbiome data es_ES
dc.title.alternative Selecció de variables en PLS-DA per a la predicció d'enfermetat amb dades de microbioma es_ES
dc.type Tesis de máster es_ES
dc.rights.accessRights Abierto es_ES
dc.contributor.affiliation Universitat Politècnica de València. Departamento de Estadística e Investigación Operativa Aplicadas y Calidad - Departament d'Estadística i Investigació Operativa Aplicades i Qualitat es_ES
dc.description.bibliographicCitation Beltrán Lastra, S. (2024). Selección de variables en PLS-DA para la predicción de enfermedad con datos de microbioma. Universitat Politècnica de València. http://hdl.handle.net/10251/209994 es_ES
dc.description.accrualMethod TFGM es_ES
dc.relation.pasarela TFGM\153364 es_ES


Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem