Resumen:
|
[CA] La retinosi pigmentària és una malaltia genètica rara que afecta la retina, provocant
una pèrdua progressiva de la visió. A causa de la raresa d’aquesta condició, un dels principals desafiaments en la investigació ...[+]
[CA] La retinosi pigmentària és una malaltia genètica rara que afecta la retina, provocant
una pèrdua progressiva de la visió. A causa de la raresa d’aquesta condició, un dels principals desafiaments en la investigació és l’escassetat de dades disponibles per a entrenar
models de predicció de mutacions patogèniques. Els conjunts de dades no són només
petits sinó també desbalancejats, la qual cosa significa que hi ha una preponderància d’exemples d’una classe (per exemple, mutacions no patogèniques) sobre l’altra (mutacions
patogèniques). Aquest desequilibri pot portar al fet que els models d’aprenentatge automàtic desenvolupen un biaix cap a la classe majoritària, reduint així la seua capacitat per
a identificar correctament les mutacions patogèniques, que són precisament les de major
interés clínic. A més, treballar amb dades limitades augmenta el risc de sobreajustament,
on el model aprén a memoritzar els detalls de les dades d’entrenament, perdent capacitat
de generalització a noves dades. Per a mitigar aquests problemes, es van implementar
diverses tècniques de preprocessament i modelatge, com l’ús de la tècnica de sobremostratge combinada amb neteja de soroll (SMOTETomek) per a equilibrar les classes, l’addició
de soroll a les dades per a evitar el sobreajustament, i l’aplicació de regularització L2 en
les capes denses del model. Aquestes tècniques estaven dissenyades per a millorar la
capacitat del model d’aprendre patrons rellevants sense dependre excessivament de les
peculiaritats del conjunt d’entrenament.
Després de nombrosos intents i ajustos en l’arquitectura del model i la selecció d’-
hiperparàmetres, es va aconseguir desenvolupar un model de xarxa neuronal convolucional (CNN) que va demostrar un rendiment superior al de configuracions anteriors.
El model final va aconseguir resultats notables, amb una precisió en la validació que va
aconseguir un 0,799, la qual cosa indica que el model no sols s’adapta bé a les dades
d’entrenament, sinó que també és capaç de realitzar prediccions precises en dades no
vistes.
Aquests resultats són particularment significatius, donat que en experiments anteriors el model patia de sobreajustament o no aconseguia millorar la precisió en el conjunt de validació. La combinació de tècniques de preprocessament, regularització, i l’ús
de la funció de pèrdua BinaryFocalCrossentropy van resultar crucials per a aconseguir
aquests resultats. L’èxit del model suggereix que és possible desenvolupar solucions efectives per a la identificació de mutacions patogèniques en contextos de dades limitades i
desbalancejades, aportant una contribució valuosa a la investigació genètica en malalties
rares com la retinosi pigmentària.
[-]
[ES] La retinosis pigmentaria es una enfermedad genética rara que afecta a la retina, provocando una pérdida progresiva de la visión. Debido a la rareza de esta condición, uno
de los principales desafíos en la investigación ...[+]
[ES] La retinosis pigmentaria es una enfermedad genética rara que afecta a la retina, provocando una pérdida progresiva de la visión. Debido a la rareza de esta condición, uno
de los principales desafíos en la investigación es la escasez de datos disponibles para entrenar modelos de predicción de mutaciones patogénicas. Los conjuntos de datos
son no solo pequeños sino también desbalanceados, lo que significa que hay una preponderancia de ejemplos de una clase (por ejemplo, mutaciones no patogénicas) sobre
la otra (mutaciones patogénicas). Este desequilibrio puede llevar a que los modelos de
aprendizaje automático desarrollen un sesgo hacia la clase mayoritaria, reduciendo así
su capacidad para identificar correctamente las mutaciones patogénicas, que son precisamente las de mayor interés clínico. Además, trabajar con datos limitados aumenta el
riesgo de sobreajuste (overfitting), donde el modelo aprende a memorizar los detalles de
los datos de entrenamiento, perdiendo capacidad de generalización a nuevos datos. Para mitigar estos problemas, se implementaron diversas técnicas de preprocesamiento y
modelado, tales como el uso de la técnica de sobremuestreo combinada con limpieza de
ruido (SMOTETomek) para equilibrar las clases, la adición de ruido a los datos para evitar
el sobreajuste, y la aplicación de regularización L2 en las capas densas del modelo. Estas
técnicas estaban diseñadas para mejorar la capacidad del modelo de aprender patrones
relevantes sin depender excesivamente de las peculiaridades del conjunto de entrenamiento.
Después de numerosos intentos y ajustes en la arquitectura del modelo y la selección de hiperparámetros, se logró desarrollar un modelo de red neuronal convolucional
(CNN) que demostró un rendimiento superior al de configuraciones anteriores. El modelo final tuvo notables resultados, con una precisión en la validación que alcanzó un 0.799,
lo que indica que el modelo no solo se adapta bien a los datos de entrenamiento, sino que
también es capaz de realizar predicciones precisas en datos no vistos.
Estos resultados son particularmente significativos, dado que en experimentos anteriores el modelo sufría de sobreajuste o no lograba mejorar la precisión en el conjunto
de validación. La combinación de técnicas de preprocesamiento, regularización, y el uso
de la función de pérdida BinaryFocalCrossentropy resultaron cruciales para alcanzar
estos resultados. El éxito del modelo sugiere que es posible desarrollar soluciones efectivas para la identificación de mutaciones patogénicas en contextos de datos limitados y
desbalanceados, aportando una contribución valiosa a la investigación genética en enfermedades raras como la retinosis pigmentaria
[-]
[EN] Retinitis pigmentosa is a rare genetic disease that affects the retina, leading to a progressive loss of vision. Due to the rarity of this condition, one of the main challenges in
research is the scarcity of data ...[+]
[EN] Retinitis pigmentosa is a rare genetic disease that affects the retina, leading to a progressive loss of vision. Due to the rarity of this condition, one of the main challenges in
research is the scarcity of data available to train models for predicting pathogenic mutations. The datasets are not only small but also imbalanced, meaning there is a predominance of examples from one class (e.g., non-pathogenic mutations) over the other
(pathogenic mutations). This imbalance can cause Machine Learning models to develop
a bias towards the majority class, thereby reducing their ability to correctly identify
pathogenic mutations, which are of the most clinical interest. Furthermore, working with
limited data increases the risk of overfitting, where the model learns to memorize the details of the training data, losing its ability to generalize to new data. To mitigate these
issues, various preprocessing and modeling techniques were implemented, such as the
use of the SMOTETomek technique to balance the classes, adding noise to the data to prevent overfitting, and applying L2 regularization in the model’s dense layers. These techniques were designed to improve the model’s ability to learn relevant patterns without
excessively relying on the peculiarities of the training set.
After numerous attempts and adjustments to the model’s architecture and hyperparameter selection, a convolutional neural network (CNN) model was developed that
demonstrated superior performance compared to previous configurations. The final
model achieved notable results, with a validation accuracy reaching 0.799, indicating that
the model not only adapts well to the training data but is also capable of making accurate
predictions on unseen data.
These results are particularly significant, given that in previous experiments, the
model suffered from overfitting or failed to improve accuracy on the validation set. The
combination of preprocessing techniques, regularization, and the use of the BinaryFocalCrossentropy loss function proved crucial in achieving these results. The success of the
model suggests that it is possible to develop effective solutions for identifying pathogenic
mutations in contexts with limited and imbalanced data, contributing valuable insights
to genetic research in rare diseases such as retinitis pigmentosa
[-]
|