Resumen:
|
[ES] El manejo eficiente de datos es un problema esencial para garantizar un diagnóstico
correcto en el ámbito de una Medicina de Precisión (MP) efectiva y adecuada. Ciencia
de Datos y Biotecnología deben unir sus fuerzas ...[+]
[ES] El manejo eficiente de datos es un problema esencial para garantizar un diagnóstico
correcto en el ámbito de una Medicina de Precisión (MP) efectiva y adecuada. Ciencia
de Datos y Biotecnología deben unir sus fuerzas para que ese objetivo sea alcanzable,
obteniendo cada vez más datos y convirtiéndolos en información valiosa. En esa
dirección, el objetivo de este trabajo es identificar las variaciones genómicas para el
diagnóstico de cáncer de mama mediante la metodología SILE: Search-IdentificationLoad-Exploitation
(Búsqueda-Identificación-Carga-Explotación). Basándose en dicha
metodología, el primer paso es seleccionar un conjunto adecuado de fuentes de datos
genómicas. Se iniciará el trabajo explorando cuatro bases de datos (ClinVar, Ensembl,
GWAS catalog y SNPedia) y se buscarán en ellas todas las variaciones genómicas
relacionadas con el cáncer de mama. Una vez obtenidas las variaciones candidatas, se
filtrarán según un conjunto de criterios de calidad que guíen la selección definitiva: entre
ellos, que al menos haya un artículo en PubMed (base de datos bibliográfica de
referencia en la investigación bioinformática y biogenómica) que sustente la relación
entre la variación y el fenotipo de estudio, que esta tenga un determinado significado
clínico y que los resultados del estudio cumplan ciertos criterios estadísticos mínimos
(lo cual se hace mediante una revisión bibliográfica manual). El objetivo final es
identificar aquellas variaciones que tienen mayor riesgo de causar el fenotipo analizado,
permitiendo por lo tanto que un diagnóstico fiable sea posible. El proceso de
identificación debe de asegurar que las variaciones seleccionadas cumplen los criterios
requeridos, y garantizar que los datos proporcionados por las bases de datos son
correctos y se corresponden con lo que se busca en este estudio. Finalmente, las
variaciones serán cargadas en una plataforma software para el diagnóstico genómico
como evidencia experimental de que la MP de la que hablamos es efectivamente viable
y puede ser explotada por el personal sanitario en el ámbito del diagnóstico clínico.
[-]
[EN] The efficient management of data is an essential problem to ensure a correct diagnosis
in the field of an effective and appropriate Precision Medicine (PM). Data Science and
Biotechnology must join forces to make ...[+]
[EN] The efficient management of data is an essential problem to ensure a correct diagnosis
in the field of an effective and appropriate Precision Medicine (PM). Data Science and
Biotechnology must join forces to make this goal reachable, obtaining more and more
data and converting them into valuable information. In that direction, the objective of this
work is identify genomic variations for the diagnosis of breast cancer using the SILE
methodology: Search-Identification-Load-Exploitation. Based on this methodology, the
first step is to select an appropriate set of genomic data sources. The work will begin by
exploring four databases (ClinVar, Ensembl, GWAS catalog and SNPedia) and all the
genomic variations related to breast cancer will be explored. Once the candidate
variations have been obtained, they will be filtered according to a set of quality criteria
that guide the final selection. Such criteria will include that at least one of the articles in
which the variations (variation) is studied appears in PubMed (reference bibliographic
database in bioinformatics and biogenomics research); that its mutation has a certain
clinical significance; and that the article fulfils certain statistic data (which is checked
using a literature review by hand). The final objective is to identify those variations that
have a higher risk of causing the analysed phenotype, thus, allowing a reliable diagnosis
to be possible. The identification process must ensure that the selected variations satisfy
the required criteria, and that the data provided by the databases are correct and
correspond to what is searched in this study. Finally, the variations will be loaded into a
software platform for genomic diagnosis as experimental evidence that the PM we are
talking about is indeed viable and can be exploited by health personnel to offer
personalized genomic medicine to patients.
[-]
|