Resumen:
|
[ES] El desarrollo de las tecnologías de alto rendimiento en biología molecular e imagen médica ha permitido el acceso a grandes cantidades de información de diverso tipo, lo que ahora se conoce como big data. Dicha ...[+]
[ES] El desarrollo de las tecnologías de alto rendimiento en biología molecular e imagen médica ha permitido el acceso a grandes cantidades de información de diverso tipo, lo que ahora se conoce como big data. Dicha información es de tal complejidad que resulta muy difícil el poder extraer conclusiones fiables y útiles de ella. Se requiere la utilización de métodos de estadística multivariante y un gran poder de computación para vislumbrar los patrones, modelos o normas que siguen los datos. En este contexto nace el machine learning o aprendizaje automático, una disciplina que fusiona métodos estadísticos con informática para elaborar algoritmos capaces de clasificar muestras, predecir resultados y realizar inferencias en base a la información que se les proporciona previamente como entrenamiento. Estos métodos aplicados a la biomedicina pueden extraer el sentido de datos de genómica, transcriptómica, imagen médica, entre otros, lo cual permitiría el avance de la medicina a una forma más personalizada, precisa y efectiva de atención médica.
En este trabajo se aplican tres de los modelos de aprendizaje automático más populares en el contexto de la clasificación: k-vecinos más próximos, máquinas de soporte vectorial y bosques aleatorios. Los datos utilizados provienen de la extracción de características radiómicas de imagen médica y la extracción de características morfológicas de núcleos celulares.
El objetivo es evaluar el desempeño de estos modelos sobre información potencialmente relevante en la clínica. En primer lugar, se hizo un análisis exploratorio de los datos consistente en el análisis de componentes principales y análisis de agrupamiento. El cuerpo principal del trabajo consta de seis pasos: procesado de los datos, estandarización, partición de los datos, selección de características, entrenamiento y validación. El procesado consistió en la eliminación de todas aquellas muestras y variables que por algún motivo no eran adecuadas para su inclusión en análisis posteriores. A continuación, se transformaron los datos por centrado y escalado. Los datos se dividieron en dos subconjuntos, de los cuales uno sirvió para el entrenamiento y otro para la validación. Durante la selección de características se redujo todavía más el número de variables a tener en cuenta para los modelos hasta tener solo aquellas más relevantes. Se entrenaron los modelos y se realizaron predicciones sobre las observaciones que no se usaron en el entrenamiento. Con los resultados obtenidos de las predicciones, se calcularon y analizaron métricas de precisión.
Los resultados obtenidos revelan que la calidad y abundancia de los datos es fundamental para el desarrollo de un buen modelo predictivo. Diferentes modelos pueden ser perfectamente funcionales para un mismo problema de clasificación. Los análisis demuestran una clara relación entre algunas de las características y el resultado clínico.
[-]
[EN] The development of high-throughtput technologies in molecular biology and medical imaging has allowed access to large amounts of information of various types, known as big data. This information is so complex that it ...[+]
[EN] The development of high-throughtput technologies in molecular biology and medical imaging has allowed access to large amounts of information of various types, known as big data. This information is so complex that it is very difficult to draw reliable and useful conclusions from it. It requires the use of multivariate statistical methods and a great deal of computing power to glimpse the patterns, models or standards that the data follow. In this context, machine learning is born, a discipline that fuses statistical methods with computing to develop algorithms capable of classifying samples, predicting results and making inferences based on the information previously provided as training. These methods applied to biomedicine can extract the sense of data from genomics, transcriptomics, medical imaging, among others, which would allow the advancement of medicine to a more personalized, accurate and effective form of medical care.
In this work, three of the most popular machine learning models are applied in the context of classification: k-nearest neighbours, support vector machines and random forest. The data used come from the extraction of radiomic features from medical imaging and the extraction of morphological features from cell nuclei.
The objective is to evaluate the performance of these models on potentially relevant information in the clinic. First, an exploratory data analysis was made, consisting of the principal components analysis and clustering analysis. The main body of work consists of six steps: data processing, standardization, data partitioning, feature selection, training and validation. The processing consisted in the elimination of all those samples and variables that for some reason were not suitable for inclusion in subsequent analyses. The data were then transformed by centering and scaling. The data were divided into two subsets, one of which was used for training and the other for validation. During the selection of characteristics, the number of variables to be taken into account for the models was further reduced to only those more relevant. Models were trained and predictions were made about observations that were not used in the training. With the results obtained from the predictions, precision metrics were calculated and analyzed.
The results obtained reveal that the quality and abundance of the data is fundamental for the development of a good predictive model. Different models can be perfectly functional for the same classification problem. Analyses show a clear relationship between some of the characteristics and the clinical outcome.
[-]
|