- -

Aplicación de técnicas de machine earning para la predicción de muestras tumorales de cáncer de mama invasivo en el contexto del Proyecto TCGA-BRCA):l

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Compartir/Enviar a

Citas

Estadísticas

  • Estadisticas de Uso

Aplicación de técnicas de machine earning para la predicción de muestras tumorales de cáncer de mama invasivo en el contexto del Proyecto TCGA-BRCA):l

Mostrar el registro sencillo del ítem

Ficheros en el ítem

dc.contributor.advisor Pastor López, Oscar es_ES
dc.contributor.advisor Navarro Aljibe, Salvador Francisco es_ES
dc.contributor.author Garabal Castro, Álvaro es_ES
dc.coverage.spatial east=-0.3469961; north=39.4824319; name=VRAIN. Camí de Vera, S/N, 46022 València. Espanya es_ES
dc.date.accessioned 2024-09-17T12:35:58Z
dc.date.available 2024-09-17T12:35:58Z
dc.date.created 2024-07-16
dc.date.issued 2024-09-17 es_ES
dc.identifier.uri http://hdl.handle.net/10251/208243
dc.description.abstract [ES] El proyecto TCGA (The Cancer Genome Atlas) es una iniciativa del Instituto Nacional del Cáncer (NCI) y el Instituto Nacional para la Investigación del Genoma Humano de los Estados Unidos (NHGRI), que busca identificar y estudiar los cambios en el ADN de diversos tipos de cáncer, proporcionando un repositorio público de datos ómicos y clínicos para facilitar la investigación de estas enfermedades. Frente a esta elevada cantidad de datos, el problema central que se pretende resolver es la clasificación y predicción de diferentes tipos de muestras tumorales utilizando, por separado, datos genómicos, transcriptómicos y epigenéticos. Para ello, se aborda la aplicación de técnicas de aprendizaje automático para la predicción en el contexto del proyecto TCGA-BRCA, centrado en el cáncer de mama invasivo. En este marco, el modelado conceptual aporta una estructura clara y coherente para la organización de la información del dominio, donde la creación de una base de datos relacional ha facilitado el almacenamiento y consulta eficiente de los datos. El proceso que se ha seguido incluye la extracción, transformación y carga (ETL) de los datos. Posteriormente, se analizaron los conjuntos en busca de problemas frecuentes en el ámbito de la genómica, como la alta dimensionalidad de los datos. Se entrenaron varios modelos de aprendizaje automático, como random forest y regresión logística, cuya capacidad predictiva fue evaluada para cada uno de los tres conjuntos. La evaluación de los modelos se realizó mediante diversas métricas (accuracy, precision, recall, f1-score, roc-auc) y utilizando técnicas de validación cruzada. Los resultados obtenidos demuestran la utilidad de los datos ómicos para la predicción de muestras tumorales, y evidencian que los modelos de clasificación, con una adecuada selección de características, muestran un rendimiento excelente para esta tarea. Las conclusiones del estudio subrayan la importancia de estudiar el impacto de múltiples tipos de datos ómicos en la predicción de cáncer, destacando la relevancia de un enfoque holístico en la medicina de precisión. Este trabajo no solo contribuye a la predicción de cáncer de mama invasivo, con una herramienta que puede apoyar el diagnóstico por profesionales de la salud, sino que también sienta las bases para futuras investigaciones en la integración de datos ómicos en el ámbito de la bioinformática y la medicina personalizada. es_ES
dc.description.abstract [EN] The TCGA project (The Cancer Genome Atlas) is an initiative of the National Cancer Institute (NCI) and the National Human Genome Research Institute (NHGRI) of the United States, aimed at identifying and studying DNA changes in various types of cancer. It provides a public repository of omics and clinical data to facilitate research on these diseases. Given this substantial amount of data, the central problem to be addressed is the classification and prediction of different types of tumor samples using genomic, transcriptomic, and epigenomic data separately. To tackle this, machine learning techniques are applied for prediction in the context of the TCGA-BRCA project, focused on invasive breast cancer. Within this framework, conceptual modeling provides a clear and coherent structure for the organization of the domain, where the creation of a relational database has facilitated efficient data storage and retrieval. The process followed includes the extraction, transformation, and loading (ETL) of the data. Subsequently, the datasets were analyzed for common issues in genomics, such as high dimensionality. Several machine learning models, such as random forest and logistic regression, were trained, and their predictive capabilities were evaluated for each of the three datasets. The models were assessed using various metrics (accuracy, precision, recall, f1-score, roc-auc) and cross-validation techniques. The results demonstrate the usefulness of omics data for predicting tumor samples, showing that classification models, with appropriate feature selection, exhibit excellent performance for this task. The study’s conclusions highlight the importance of investigating the impact of multiple types of omics data on cancer prediction, emphasizing the relevance of a holistic approach in precision medicine. This work not only contributes to the prediction of invasive breast cancer, providing a tool that can support diagnosis by healthcare professionals but also lays the groundwork for future research in the integration of omics data in bioinformatics and personalized medicine. es_ES
dc.description.sponsorship A la beca de colaboración en PROS/VRAIN, que facilitó la realización de este trabajo. es_ES
dc.format.extent 100 es_ES
dc.language Español es_ES
dc.publisher Universitat Politècnica de València es_ES
dc.rights Reserva de todos los derechos es_ES
dc.subject Aprendizaje automático es_ES
dc.subject Predicción es_ES
dc.subject Muestras tumorales es_ES
dc.subject Cáncer de mama invasivo es_ES
dc.subject TCGA-BRCA es_ES
dc.subject Datos ómicos es_ES
dc.subject Algoritmos de clasificación es_ES
dc.subject Medicina de precisión es_ES
dc.subject Análisis exploratorio es_ES
dc.subject Validación cruzada es_ES
dc.subject Machine learning es_ES
dc.subject Prediction es_ES
dc.subject Tumor samples es_ES
dc.subject Invasive breast cancer es_ES
dc.subject Omics data es_ES
dc.subject Conceptual modeling es_ES
dc.subject Precision medicine es_ES
dc.subject Exploratory analysis es_ES
dc.subject Cross-validation es_ES
dc.subject.classification LENGUAJES Y SISTEMAS INFORMATICOS es_ES
dc.subject.other Grado en Ingeniería Informática-Grau en Enginyeria Informàtica es_ES
dc.title Aplicación de técnicas de machine earning para la predicción de muestras tumorales de cáncer de mama invasivo en el contexto del Proyecto TCGA-BRCA):l es_ES
dc.title.alternative Application of Machine Learning Techniques for the Prediction of Invasive Breast Cancer Tumor Samples in the Context of the TCGA-BRCA Project es_ES
dc.title.alternative Aplicació de tècniques de machine learning per a la predicció de mostres tumorals de càncer de mama invasiu en el contexte del Projecte TCGA-BRC es_ES
dc.type Proyecto/Trabajo fin de carrera/grado es_ES
dc.rights.accessRights Abierto es_ES
dc.contributor.affiliation Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació es_ES
dc.contributor.affiliation Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica es_ES
dc.description.bibliographicCitation Garabal Castro, Á. (2024). Aplicación de técnicas de machine earning para la predicción de muestras tumorales de cáncer de mama invasivo en el contexto del Proyecto TCGA-BRCA):l. Universitat Politècnica de València. http://hdl.handle.net/10251/208243 es_ES
dc.description.accrualMethod TFGM es_ES
dc.relation.pasarela TFGM\162961 es_ES


Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem