Resumen:
|
[ES] El presente Trabajo de Fin de Grado aborda el diseño e implementación de modelos de
lenguaje para la información genómica asociada a enfermedades raras, específicamente
la retinosis pigmentaria, utilizando algoritmos ...[+]
[ES] El presente Trabajo de Fin de Grado aborda el diseño e implementación de modelos de
lenguaje para la información genómica asociada a enfermedades raras, específicamente
la retinosis pigmentaria, utilizando algoritmos de inferencia gramatical k-testables. La
investigación se centra en desarrollar modelos de autómatas finitos deterministas (AFD)
que puedan identificar patrones en secuencias genéticas, diferenciando entre muestras
de ADN mutado y no mutado.
El estudio comenzó con la recopilación de datos genómicos a partir de archivos VCF
proporcionados por el Instituto de La Fe de Valencia. Estos datos fueron procesados para
generar muestras de secuencias genéticas, las cuales se utilizaron para entrenar y evaluar
los modelos. Se implementaron dos tipos de modelos: uno con secuencias mutadas y otro
con secuencias no mutadas. Cada modelo fue optimizado variando el parámetro k, que
define el tamaño de la ventana de contexto del autómata.
Los resultados del estudio muestran que los modelos entrenados con secuencias mutadas y no mutadas presentan diferentes niveles de precisión, especificidad y recall. La
investigación demuestra el potencial de los AFD basados en algoritmos k-testables para
el análisis genómico y la identificación de mutaciones, aportando valor al campo de la
bioinformática y el diagnóstico de enfermedades raras.
[-]
[EN] This Final Degree Project addresses the design and implementation of language models
for genomic information associated with rare diseases, specifically retinitis pigmentosa,
using k-testable grammatical inference ...[+]
[EN] This Final Degree Project addresses the design and implementation of language models
for genomic information associated with rare diseases, specifically retinitis pigmentosa,
using k-testable grammatical inference algorithms. The research focuses on developing
deterministic finite automata (DFA) models capable of identifying patterns in genetic
sequences, differentiating between mutated and non-mutated DNA samples.
The study began with the collection of genomic data from VCF files provided by the Instituto de La Fe de Valencia. These data were processed to generate samples of genetic
sequences, which were used to train and evaluate the models. Two types of models were
implemented: one with mutated sequences and another with non-mutated sequences.
Each model was optimized by varying the k parameter, which defines the context window size of the automaton.
The study results show that models trained with mutated and non-mutated sequences
exhibit different levels of precision, specificity, and recall. The research demonstrates the
potential of DFA based on k-testable algorithms for genomic analysis and mutation identification, contributing to the field of bioinformatics and the diagnosis of rare diseases.
[-]
|