Resumen:
|
[ES] El proyecto TCGA (The Cancer Genome Atlas) es una iniciativa del Instituto Nacional
del Cáncer (NCI) y el Instituto Nacional para la Investigación del Genoma Humano de
los Estados Unidos (NHGRI), que busca identificar ...[+]
[ES] El proyecto TCGA (The Cancer Genome Atlas) es una iniciativa del Instituto Nacional
del Cáncer (NCI) y el Instituto Nacional para la Investigación del Genoma Humano de
los Estados Unidos (NHGRI), que busca identificar y estudiar los cambios en el ADN
de diversos tipos de cáncer, proporcionando un repositorio público de datos ómicos y
clínicos para facilitar la investigación de estas enfermedades. Frente a esta elevada cantidad de datos, el problema central que se pretende resolver es la clasificación y predicción
de diferentes tipos de muestras tumorales utilizando, por separado, datos genómicos,
transcriptómicos y epigenéticos.
Para ello, se aborda la aplicación de técnicas de aprendizaje automático para la predicción en el contexto del proyecto TCGA-BRCA, centrado en el cáncer de mama invasivo. En este marco, el modelado conceptual aporta una estructura clara y coherente para
la organización de la información del dominio, donde la creación de una base de datos
relacional ha facilitado el almacenamiento y consulta eficiente de los datos.
El proceso que se ha seguido incluye la extracción, transformación y carga (ETL) de
los datos. Posteriormente, se analizaron los conjuntos en busca de problemas frecuentes
en el ámbito de la genómica, como la alta dimensionalidad de los datos. Se entrenaron
varios modelos de aprendizaje automático, como random forest y regresión logística, cuya
capacidad predictiva fue evaluada para cada uno de los tres conjuntos. La evaluación
de los modelos se realizó mediante diversas métricas (accuracy, precision, recall, f1-score,
roc-auc) y utilizando técnicas de validación cruzada.
Los resultados obtenidos demuestran la utilidad de los datos ómicos para la predicción de muestras tumorales, y evidencian que los modelos de clasificación, con una adecuada selección de características, muestran un rendimiento excelente para esta tarea.
Las conclusiones del estudio subrayan la importancia de estudiar el impacto de múltiples tipos de datos ómicos en la predicción de cáncer, destacando la relevancia de un
enfoque holístico en la medicina de precisión. Este trabajo no solo contribuye a la predicción de cáncer de mama invasivo, con una herramienta que puede apoyar el diagnóstico
por profesionales de la salud, sino que también sienta las bases para futuras investigaciones en la integración de datos ómicos en el ámbito de la bioinformática y la medicina
personalizada.
[-]
[EN] The TCGA project (The Cancer Genome Atlas) is an initiative of the National Cancer Institute (NCI) and the National Human Genome Research Institute (NHGRI) of the
United States, aimed at identifying and studying DNA ...[+]
[EN] The TCGA project (The Cancer Genome Atlas) is an initiative of the National Cancer Institute (NCI) and the National Human Genome Research Institute (NHGRI) of the
United States, aimed at identifying and studying DNA changes in various types of cancer. It provides a public repository of omics and clinical data to facilitate research on these
diseases. Given this substantial amount of data, the central problem to be addressed is
the classification and prediction of different types of tumor samples using genomic, transcriptomic, and epigenomic data separately.
To tackle this, machine learning techniques are applied for prediction in the context
of the TCGA-BRCA project, focused on invasive breast cancer. Within this framework,
conceptual modeling provides a clear and coherent structure for the organization of the
domain, where the creation of a relational database has facilitated efficient data storage
and retrieval.
The process followed includes the extraction, transformation, and loading (ETL) of
the data. Subsequently, the datasets were analyzed for common issues in genomics, such
as high dimensionality. Several machine learning models, such as random forest and logistic regression, were trained, and their predictive capabilities were evaluated for each
of the three datasets. The models were assessed using various metrics (accuracy, precision, recall, f1-score, roc-auc) and cross-validation techniques.
The results demonstrate the usefulness of omics data for predicting tumor samples,
showing that classification models, with appropriate feature selection, exhibit excellent
performance for this task.
The study’s conclusions highlight the importance of investigating the impact of multiple types of omics data on cancer prediction, emphasizing the relevance of a holistic
approach in precision medicine. This work not only contributes to the prediction of invasive breast cancer, providing a tool that can support diagnosis by healthcare professionals
but also lays the groundwork for future research in the integration of omics data in bioinformatics and personalized medicine.
[-]
|