Resumen:
|
[ES] Los datos multiómicos, esto es, bases de datos de alta dimensionalidad formadas por bloques de variables, comúnmente atribuidos a información biológica y clínica en pacientes, se emplean cada vez más en la investigación ...[+]
[ES] Los datos multiómicos, esto es, bases de datos de alta dimensionalidad formadas por bloques de variables, comúnmente atribuidos a información biológica y clínica en pacientes, se emplean cada vez más en la investigación de numerosas patologías para la búsqueda de biomarcadores. Las variables de interés de dichos ensayos clínicos contienen información sobre el tiempo hasta un evento de interés y su censura, y deben ser tratados mediante técnicas estadísticas basadas en el análisis de supervivencia. Para hacer frente a datos multiómicos, y sus características, se seleccionaron numerosos modelos de predicción para su comparación en rendimiento, selección de variables y coste computacional, empleando dos bases de datos procedentes de The Cancer Genome Atlas. Algunos de los métodos comparados están basados en regresión penalizada, otros son algoritmos boosting o random forest. A su vez, se pueden categorizar en función de si implementa una estrategia multi ¿ bloque al analizar la base de datos. Estos métodos se compararon con el modelo Cox usando únicamente variables clínicas como predictores. Los parámetros de rendimiento empleados fueron el cindex y el Brier score. Los resultados indican que los modelos que implementan la estrategia multi ¿ bloque tienen, por lo general, un mejor rendimiento, al facilitar la inclusión de variables con más información predictiva pertenecientes a bloques de menor dimensión. La selección de modelos y el análisis de las variables seleccionadas ha permitido validar su utilidad en la detección de factores pronóstico, al identificar biomarcadores consolidados para ambas patologías de estudio. El análisis del tiempo de ejecución de los modelos limita la aplicación de algunos con un rendimiento adecuado, al ser significativamente superior a modelos con un rendimiento similar y una mejor interpretabilidad.
[-]
[EN] Multiomic data, that is, high-dimensional databases formed by blocks of variables commonly attributed to biological and clinical information in patients, are increasingly used in the research of numerous pathologies ...[+]
[EN] Multiomic data, that is, high-dimensional databases formed by blocks of variables commonly attributed to biological and clinical information in patients, are increasingly used in the research of numerous pathologies to search for biomarkers. The variables of interest in these clinical trials contain information about the time until an event of interest and its censorship and must be treated using statistical techniques based on survival analysis. To address multiomic data and its characteristics, numerous prediction models were selected for comparison in terms of performance, variable selection, and computational cost, using two databases from The Cancer Genome Atlas. Some of the compared methods are based on penalized regression, while others are boosting or random forest algorithms. They can also be categorized based on whether they implement a multi-block strategy when analyzing the database. These methods were compared with the Cox model using only clinical variables as predictors. The performance parameters used were the cindex and the Brier score. The results indicate that models implementing the multi-block strategy generally perform better by allowing the inclusion of variables with more predictive information from smaller-dimensional blocks. The selection of models and the analysis of the selected variables have validated their utility in detecting prognostic factors by identifying established biomarkers for both study pathologies. The analysis of model execution time limits the application of some models with adequate performance, as it is significantly higher than models with similar performance and better interpretability.
[-]
|