Resumen:
|
[ES] La variabilidad temporal en distribuciones de datos biomédicos es uno de los principales problemas
hacia una inteligencia artificial basada en aprendizaje automático generalizable. La investigación y toma
de decisiones ...[+]
[ES] La variabilidad temporal en distribuciones de datos biomédicos es uno de los principales problemas
hacia una inteligencia artificial basada en aprendizaje automático generalizable. La investigación y toma
de decisiones en entornos biomédicos están centradas en el uso de los datos almacenados en los
sistemas de información. Como consecuencia, una baja calidad en estos datos puede afectar
negativamente a los procesos y resultados asociados a ellos, pudiendo dar lugar a decisiones
subóptimas. En este trabajo, se lleva a cabo una caracterización exhaustiva de la variabilidad temporal
de datos, uno de los problemas de calidad de datos más significativos para el aprendizaje automático,
centrándose en el relevante conjunto de datos MIMIC-IV, con el fin de caracterizar diferentes tipos de
variabilidad o “dataset shifts” como cambios de concepto, en las distribuciones marginales de las
variables a predecir o en las covariables, tanto de forma gradual como abrupta. Para ello, se utilizará el
Information Geometric Temporal plot, para obtener una visualización de la evolución temporal de las
distribuciones de datos, basada en la proyección de la variedad estadística de las relaciones entre lotes
temporales. Asimismo, los resultados serán contrastados con cambios temporales en el rendimiento
de diferentes modelos predictivos basados en árboles de decisión, entrenados con subconjuntos de
datos procedentes de distintos espacios temporales, con el fin de evaluar el impacto de la variabilidad
temporal. Los resultados de este trabajo demuestran la relevancia de realizar un análisis de la
variabilidad temporal previo al desarrollo de modelos predictivos en medicina basados en inteligencia
artificial.
[-]
[EN] The temporal variability in distributions of biomedical data is one of the main challenges towards Artificial Intelligence based on generalizable machine learning. Research and decision-taking in biomedical environments ...[+]
[EN] The temporal variability in distributions of biomedical data is one of the main challenges towards Artificial Intelligence based on generalizable machine learning. Research and decision-taking in biomedical environments are focused on the use of data stored in information systems. As a consequence, low quality in data can have a negative impact on the processes and results associated with them, leading to suboptimal decisions. In this project, an exhaustive characterization of temporal data variability is carried out, which is one of the most important data quality issues for machine learning, focusing on the relevant dataset MIMIC-IV, with the final purpose of characterizing different types of variability or "dataset shifts," such as concept drifts, prior probability shifts or covariate shifts, both in a gradual and abrupt manner. To accomplish it, the Information Geometric Temporal plot will be used to get a visualization of the temporal evolution of data distributions, based on the projection of the statistical variety of relationships between temporal batches. Additionally, the results will be compared with temporal changes in the performance of different predictive models based on decision trees, trained with subsets of data from different temporal spaces with the aim of evaluating the impact of the temporal variability. The results of this project show the importance of doing an analysis of the temporal variability prior to the development of predictive models in medicine based on Artificial Intelligence.
[-]
|