- -

Diseño e implementación de herramientas para la caracterización de información genómica asociada a enfermedades raras mediante redes neuronales artificiales

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Compartir/Enviar a

Citas

Estadísticas

  • Estadisticas de Uso

Diseño e implementación de herramientas para la caracterización de información genómica asociada a enfermedades raras mediante redes neuronales artificiales

Mostrar el registro sencillo del ítem

Ficheros en el ítem

dc.contributor.advisor Sempere Luna, José María es_ES
dc.contributor.author Escribano de la Torre, Yaiza es_ES
dc.date.accessioned 2024-10-25T17:27:43Z
dc.date.available 2024-10-25T17:27:43Z
dc.date.created 2024-09-23
dc.date.issued 2024-10-25 es_ES
dc.identifier.uri http://hdl.handle.net/10251/210903
dc.description.abstract [CA] La retinosi pigmentària és una malaltia genètica rara que afecta la retina, provocant una pèrdua progressiva de la visió. A causa de la raresa d’aquesta condició, un dels principals desafiaments en la investigació és l’escassetat de dades disponibles per a entrenar models de predicció de mutacions patogèniques. Els conjunts de dades no són només petits sinó també desbalancejats, la qual cosa significa que hi ha una preponderància d’exemples d’una classe (per exemple, mutacions no patogèniques) sobre l’altra (mutacions patogèniques). Aquest desequilibri pot portar al fet que els models d’aprenentatge automàtic desenvolupen un biaix cap a la classe majoritària, reduint així la seua capacitat per a identificar correctament les mutacions patogèniques, que són precisament les de major interés clínic. A més, treballar amb dades limitades augmenta el risc de sobreajustament, on el model aprén a memoritzar els detalls de les dades d’entrenament, perdent capacitat de generalització a noves dades. Per a mitigar aquests problemes, es van implementar diverses tècniques de preprocessament i modelatge, com l’ús de la tècnica de sobremostratge combinada amb neteja de soroll (SMOTETomek) per a equilibrar les classes, l’addició de soroll a les dades per a evitar el sobreajustament, i l’aplicació de regularització L2 en les capes denses del model. Aquestes tècniques estaven dissenyades per a millorar la capacitat del model d’aprendre patrons rellevants sense dependre excessivament de les peculiaritats del conjunt d’entrenament. Després de nombrosos intents i ajustos en l’arquitectura del model i la selecció d’- hiperparàmetres, es va aconseguir desenvolupar un model de xarxa neuronal convolucional (CNN) que va demostrar un rendiment superior al de configuracions anteriors. El model final va aconseguir resultats notables, amb una precisió en la validació que va aconseguir un 0,799, la qual cosa indica que el model no sols s’adapta bé a les dades d’entrenament, sinó que també és capaç de realitzar prediccions precises en dades no vistes. Aquests resultats són particularment significatius, donat que en experiments anteriors el model patia de sobreajustament o no aconseguia millorar la precisió en el conjunt de validació. La combinació de tècniques de preprocessament, regularització, i l’ús de la funció de pèrdua BinaryFocalCrossentropy van resultar crucials per a aconseguir aquests resultats. L’èxit del model suggereix que és possible desenvolupar solucions efectives per a la identificació de mutacions patogèniques en contextos de dades limitades i desbalancejades, aportant una contribució valuosa a la investigació genètica en malalties rares com la retinosi pigmentària. es_ES
dc.description.abstract [ES] La retinosis pigmentaria es una enfermedad genética rara que afecta a la retina, provocando una pérdida progresiva de la visión. Debido a la rareza de esta condición, uno de los principales desafíos en la investigación es la escasez de datos disponibles para entrenar modelos de predicción de mutaciones patogénicas. Los conjuntos de datos son no solo pequeños sino también desbalanceados, lo que significa que hay una preponderancia de ejemplos de una clase (por ejemplo, mutaciones no patogénicas) sobre la otra (mutaciones patogénicas). Este desequilibrio puede llevar a que los modelos de aprendizaje automático desarrollen un sesgo hacia la clase mayoritaria, reduciendo así su capacidad para identificar correctamente las mutaciones patogénicas, que son precisamente las de mayor interés clínico. Además, trabajar con datos limitados aumenta el riesgo de sobreajuste (overfitting), donde el modelo aprende a memorizar los detalles de los datos de entrenamiento, perdiendo capacidad de generalización a nuevos datos. Para mitigar estos problemas, se implementaron diversas técnicas de preprocesamiento y modelado, tales como el uso de la técnica de sobremuestreo combinada con limpieza de ruido (SMOTETomek) para equilibrar las clases, la adición de ruido a los datos para evitar el sobreajuste, y la aplicación de regularización L2 en las capas densas del modelo. Estas técnicas estaban diseñadas para mejorar la capacidad del modelo de aprender patrones relevantes sin depender excesivamente de las peculiaridades del conjunto de entrenamiento. Después de numerosos intentos y ajustes en la arquitectura del modelo y la selección de hiperparámetros, se logró desarrollar un modelo de red neuronal convolucional (CNN) que demostró un rendimiento superior al de configuraciones anteriores. El modelo final tuvo notables resultados, con una precisión en la validación que alcanzó un 0.799, lo que indica que el modelo no solo se adapta bien a los datos de entrenamiento, sino que también es capaz de realizar predicciones precisas en datos no vistos. Estos resultados son particularmente significativos, dado que en experimentos anteriores el modelo sufría de sobreajuste o no lograba mejorar la precisión en el conjunto de validación. La combinación de técnicas de preprocesamiento, regularización, y el uso de la función de pérdida BinaryFocalCrossentropy resultaron cruciales para alcanzar estos resultados. El éxito del modelo sugiere que es posible desarrollar soluciones efectivas para la identificación de mutaciones patogénicas en contextos de datos limitados y desbalanceados, aportando una contribución valiosa a la investigación genética en enfermedades raras como la retinosis pigmentaria es_ES
dc.description.abstract [EN] Retinitis pigmentosa is a rare genetic disease that affects the retina, leading to a progressive loss of vision. Due to the rarity of this condition, one of the main challenges in research is the scarcity of data available to train models for predicting pathogenic mutations. The datasets are not only small but also imbalanced, meaning there is a predominance of examples from one class (e.g., non-pathogenic mutations) over the other (pathogenic mutations). This imbalance can cause Machine Learning models to develop a bias towards the majority class, thereby reducing their ability to correctly identify pathogenic mutations, which are of the most clinical interest. Furthermore, working with limited data increases the risk of overfitting, where the model learns to memorize the details of the training data, losing its ability to generalize to new data. To mitigate these issues, various preprocessing and modeling techniques were implemented, such as the use of the SMOTETomek technique to balance the classes, adding noise to the data to prevent overfitting, and applying L2 regularization in the model’s dense layers. These techniques were designed to improve the model’s ability to learn relevant patterns without excessively relying on the peculiarities of the training set. After numerous attempts and adjustments to the model’s architecture and hyperparameter selection, a convolutional neural network (CNN) model was developed that demonstrated superior performance compared to previous configurations. The final model achieved notable results, with a validation accuracy reaching 0.799, indicating that the model not only adapts well to the training data but is also capable of making accurate predictions on unseen data. These results are particularly significant, given that in previous experiments, the model suffered from overfitting or failed to improve accuracy on the validation set. The combination of preprocessing techniques, regularization, and the use of the BinaryFocalCrossentropy loss function proved crucial in achieving these results. The success of the model suggests that it is possible to develop effective solutions for identifying pathogenic mutations in contexts with limited and imbalanced data, contributing valuable insights to genetic research in rare diseases such as retinitis pigmentosa es_ES
dc.format.extent 68 es_ES
dc.language Español es_ES
dc.publisher Universitat Politècnica de València es_ES
dc.rights Reserva de todos los derechos es_ES
dc.subject Enfermedades raras es_ES
dc.subject Aprenentatge automàtic es_ES
dc.subject Malalties rares es_ES
dc.subject Xarxes neuronals es_ES
dc.subject Xarxes neuronals convolucionals es_ES
dc.subject Genètica computacional es_ES
dc.subject Aprendizaje automático es_ES
dc.subject Redes neuronales (NN) es_ES
dc.subject Redes Neuronales Convolucionales (CNN) es_ES
dc.subject Genética computacional es_ES
dc.subject Machine learning (ML) es_ES
dc.subject Rare diseases es_ES
dc.subject Neural networks (NNs) es_ES
dc.subject Convolutional neural networks (CNNs) es_ES
dc.subject Computational genetics es_ES
dc.subject.classification LENGUAJES Y SISTEMAS INFORMATICOS es_ES
dc.subject.other Grado en Ingeniería Informática-Grau en Enginyeria Informàtica es_ES
dc.title Diseño e implementación de herramientas para la caracterización de información genómica asociada a enfermedades raras mediante redes neuronales artificiales es_ES
dc.title.alternative Design and implementation of tools for genomic information characterization associated with rare diseases using artificial neural networks es_ES
dc.title.alternative Disseny i implementació de ferramentes per a la caracterització d'informació genòmica associada a malalties rares mitjançant xarxes neuronals artificials es_ES
dc.type Proyecto/Trabajo fin de carrera/grado es_ES
dc.rights.accessRights Abierto es_ES
dc.contributor.affiliation Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació es_ES
dc.contributor.affiliation Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica es_ES
dc.description.bibliographicCitation Escribano De La Torre, Y. (2024). Diseño e implementación de herramientas para la caracterización de información genómica asociada a enfermedades raras mediante redes neuronales artificiales. Universitat Politècnica de València. http://hdl.handle.net/10251/210903 es_ES
dc.description.accrualMethod TFGM es_ES
dc.relation.pasarela TFGM\161424 es_ES


Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem