Resumen:
|
[ES] Este TFG se centra en los desafíos actuales de la investigación del cáncer de
mama, especialmente en el contexto de datos de alta dimensionalidad. El objetivo
principal es explorar la relación entre los polimorfismos ...[+]
[ES] Este TFG se centra en los desafíos actuales de la investigación del cáncer de
mama, especialmente en el contexto de datos de alta dimensionalidad. El objetivo
principal es explorar la relación entre los polimorfismos de un solo nucleótido
(SNPs) y la densidad mamaria, un factor relevante en el desarrollo del cáncer de
mama. Durante la investigación, se aplican técnicas de selección de características
y Aprendizaje Automático en conjuntos de datos de alta dimensionalidad.
Los resultados obtenidos revelan que la relación de los SNPs con la variable
objetivo, el número de muestras y de variables influyen significativamente en la
dificultad de la tarea. Se observa que una relación más fuerte entre los SNPs y la
densidad mamaria facilita la predicción precisa de la variable objetivo. Además,
a medida que aumenta el número de muestras disponibles para el análisis, se
mejora la capacidad de los modelos para capturar patrones y realizar inferencias
más sólidas.
Dados estos resultados, se ha establecido una medida para cuantificar la dificultad de la tarea y se ha inferido una función que relaciona el rendimiento con
la dificultad de la misma. Esto permite identificar la dificultad de la tarea real,
extraer el subconjunto de SNPs relevantes para la densidad mamaria real y proporcionar una medida de confianza sobre su precisión y relevancia.
[-]
[CA] Aquest TFG se centra en els reptes actuals de la investigació del càncer de
mama, especialment en el context de les dades d’alta dimensionalitat. L’objectiu
principal és explorar la relació entre els polimorfismes ...[+]
[CA] Aquest TFG se centra en els reptes actuals de la investigació del càncer de
mama, especialment en el context de les dades d’alta dimensionalitat. L’objectiu
principal és explorar la relació entre els polimorfismes d’un sol nucleòtid (SNPs) i
la densitat mamària, un factor rellevant en el desenvolupament del càncer de mama. Durant la investigació, s’apliquen tècniques de selecció de característiques i
Aprenentatge Automàtic en conjunts de dades d’alta dimensionalitat.
Els resultats obtinguts revelen que la relació dels SNPs amb la variable objectiu, el nombre de mostres i el nombre de variables influeixen significativament
en la dificultat de la tasca. S’observa que una relació més forta entre els SNPs i
la densitat mamària facilita la predicció precisa de la variable objectiu. A més, a
mesura que augmenta el nombre de mostres disponibles per a l’anàlisi, es millora
la capacitat dels models per capturar patrons i realitzar inferències més sòlides.
Davant d’aquests resultats, s’ha establert una mesura per quantificar la dificultat de la tasca i s’ha inferit una funció que relaciona el rendiment amb la dificultat de la tasca. Això permet identificar la dificultat de la tasca real, extreure el
subconjunt de SNPs rellevants per a la densitat mamària real i proporcionar una
mesura de confiança sobre la seua precisió i rellevància.
[-]
[EN] This study focuses on current challenges in breast cancer research, particularly
in the context of high-dimensional data. The main objective is to explore the relationship between single nucleotide polymorphisms ...[+]
[EN] This study focuses on current challenges in breast cancer research, particularly
in the context of high-dimensional data. The main objective is to explore the relationship between single nucleotide polymorphisms (SNPs) and breast density, a
relevant factor in breast cancer development. During the research, feature selection techniques and Machine Learning are applied to high-dimensional datasets.
The obtained results reveal that the relationship between SNPs and the target variable, the number of samples, and the number of variables significantly
influence the task difficulty. It is observed that a stronger relationship between
SNPs and breast density facilitates accurate prediction of the target variable. Furthermore, as the number of samples available for analysis increases, the models’
ability to capture patterns and make more robust inferences improves.
Based on these results, a measure has been established to quantify the task
difficulty, and a function has been inferred that relates performance to task difficulty. This allows identifying the difficulty of the actual task, extracting the subset of SNPs relevant to real breast density, and providing a measure of confidence
regarding their accuracy and relevance.
[-]
|