Resumen:
|
[ES] El cáncer de colon (CRC) es una patología que presenta retos para la salud global por su alta morbilidad y mortalidad. Detectar y predecir este tipo de cáncer es crucial para permitir intervenciones tempranas y mejorar ...[+]
[ES] El cáncer de colon (CRC) es una patología que presenta retos para la salud global por su alta morbilidad y mortalidad. Detectar y predecir este tipo de cáncer es crucial para permitir intervenciones tempranas y mejorar los resultados del tratamiento. En este trabajo fin de máster se parte de la secuenciación masiva del genoma y se consideran los genes marcadores de un proceso inflamatorio para predecir la presencia de tumores primarios en pacientes. Los datos constan de un total de 2045 individuos y 196 genes marcadores de inflamación, de los cuales 1234 son controles y 811 diagnosticados con CRC. Primeramente, se llevó a cabo un análisis exploratorio de los datos con técnicas no supervisadas como el PCA o el clustering. Ambas técnicas permitieron visualizar la segmentación de los dos grupos. Posteriormente, se emplearon modelos de minería de datos y el random forest tuvo el mejor rendimiento en diferentes conjuntos de validación. Además, se ajustaron los hiper-parámetros del modelo XGBoost, lo que resultó en una mejora significativa de su capacidad predictiva. Finalmente, la interpretación de los modelos reveló que los genes más determinantes para la clasificación del CRC son RIPK2, LPAR1 y TIMP1, entre otros.
[-]
[EN] Colorectal cancer (CRC) is a pathology that presents global health challenges due
to its high morbidity and mortality. Detecting and predicting this type of cancer is
crucial to enable early interventions and improve ...[+]
[EN] Colorectal cancer (CRC) is a pathology that presents global health challenges due
to its high morbidity and mortality. Detecting and predicting this type of cancer is
crucial to enable early interventions and improve treatment outcomes. This master’s
thesis is based on massive genome sequencing and considers the marker genes of an
inflammatory process to predict the presence of primary tumours in patients. The
sample consists of 2045 individuals and 196 marker genes, of which 1234 are controls
and 811 diagnosed with CRC. First, an exploratory analysis of the data was carried out
using unsupervised techniques such as PCA or clustering. Both techniques allowed us
to visualise the segmentation of the two groups. Subsequently, data mining models were
used and the random forest performed best on different validation sets. In addition,
the hyper-parameters of the XGBoost model were adjusted, resulting in a significant
improvement of its predictive ability. Finally, the interpretation of the models revealed
that the most determinant genes for CRC classification are RIPK2, LPAR1 and TIMP1,
among others.
[-]
|