Métodos de machine learning en estudios biomédicos

González Vilanova, Arturo

Identificarse

Buscar en RiuNet

Listar

Todo RiuNet
Esta colección

Mi cuenta

Acceder

Estadísticas

Ver Estadísticas de uso

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Métodos de machine learning en estudios biomédicos

Mostrar el registro completo del ítem

González Vilanova, A. (2019). Métodos de machine learning en estudios biomédicos. http://hdl.handle.net/10251/127574

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10251/127574

Ficheros en el ítem

Nombre: González - Métodos ...

Tamaño: 1.412Mb

Formato: PDF

Abrir/Preview

Nombre: anexo González ...

Tamaño: 5.227Kb

Formato: Desconocido

Abrir

Metadatos del ítem

Título:

Métodos de machine learning en estudios biomédicos

Autor:

González Vilanova, Arturo

Director(es):

García García, Francisco

Forment Millet, José Javier

Entidad UPV:

Universitat Politècnica de València. Departamento de Biotecnología - Departament de Biotecnologia
Universitat Politècnica de València. Escuela Técnica Superior de Ingeniería Agronómica y del Medio Natural - Escola Tècnica Superior d'Enginyeria Agronòmica i del Medi Natural

Fecha acto/lectura:

2019-09-20

Fecha difusión:

2019-10-07

Resumen:

[ES] El desarrollo de las tecnologías de alto rendimiento en biología molecular e imagen médica ha permitido el acceso a grandes cantidades de información de diverso tipo, lo que ahora se conoce como big data. Dicha información es de tal complejidad que resulta muy difícil el poder extraer conclusiones fiables y útiles de ella. Se requiere la utilización de métodos de estadística multivariante y un gran poder de computación para vislumbrar los patrones, modelos o normas que siguen los datos. En este contexto nace el machine learning o aprendizaje automático, una disciplina que fusiona métodos estadísticos con informática para elaborar algoritmos capaces de clasificar muestras, predecir resultados y realizar inferencias en base a la información que se les proporciona previamente como entrenamiento. Estos métodos aplicados a la biomedicina pueden extraer el sentido de datos de genómica, transcriptómica, imagen médica, entre otros, lo cual permitiría el avance de la medicina a una forma más personalizada, precisa y efectiva de atención médica. En este trabajo se aplican tres de los modelos de aprendizaje automático más populares en el contexto de la clasificación: k-vecinos más próximos, máquinas de soporte vectorial y bosques aleatorios. Los datos utilizados provienen de la extracción de características radiómicas de imagen médica y la extracción de características morfológicas de núcleos celulares. El objetivo es evaluar el desempeño de estos modelos sobre información potencialmente relevante en la clínica. En primer lugar, se hizo un análisis exploratorio de los datos consistente en el análisis de componentes principales y análisis de agrupamiento. El cuerpo principal del trabajo consta de seis pasos: procesado de los datos, estandarización, partición de los datos, selección de características, entrenamiento y validación. El procesado consistió en la eliminación de todas aquellas muestras y variables que por algún motivo no eran adecuadas para su inclusión en análisis posteriores. A continuación, se transformaron los datos por centrado y escalado. Los datos se dividieron en dos subconjuntos, de los cuales uno sirvió para el entrenamiento y otro para la validación. Durante la selección de características se redujo todavía más el número de variables a tener en cuenta para los modelos hasta tener solo aquellas más relevantes. Se entrenaron los modelos y se realizaron predicciones sobre las observaciones que no se usaron en el entrenamiento. Con los resultados obtenidos de las predicciones, se calcularon y analizaron métricas de precisión. Los resultados obtenidos revelan que la calidad y abundancia de los datos es fundamental para el desarrollo de un buen modelo predictivo. Diferentes modelos pueden ser perfectamente funcionales para un mismo problema de clasificación. Los análisis demuestran una clara relación entre algunas de las características y el resultado clínico. [-]

[EN] The development of high-throughtput technologies in molecular biology and medical imaging has allowed access to large amounts of information of various types, known as big data. This information is so complex that it is very difficult to draw reliable and useful conclusions from it. It requires the use of multivariate statistical methods and a great deal of computing power to glimpse the patterns, models or standards that the data follow. In this context, machine learning is born, a discipline that fuses statistical methods with computing to develop algorithms capable of classifying samples, predicting results and making inferences based on the information previously provided as training. These methods applied to biomedicine can extract the sense of data from genomics, transcriptomics, medical imaging, among others, which would allow the advancement of medicine to a more personalized, accurate and effective form of medical care. In this work, three of the most popular machine learning models are applied in the context of classification: k-nearest neighbours, support vector machines and random forest. The data used come from the extraction of radiomic features from medical imaging and the extraction of morphological features from cell nuclei. The objective is to evaluate the performance of these models on potentially relevant information in the clinic. First, an exploratory data analysis was made, consisting of the principal components analysis and clustering analysis. The main body of work consists of six steps: data processing, standardization, data partitioning, feature selection, training and validation. The processing consisted in the elimination of all those samples and variables that for some reason were not suitable for inclusion in subsequent analyses. The data were then transformed by centering and scaling. The data were divided into two subsets, one of which was used for training and the other for validation. During the selection of characteristics, the number of variables to be taken into account for the models was further reduced to only those more relevant. Models were trained and predictions were made about observations that were not used in the training. With the results obtained from the predictions, precision metrics were calculated and analyzed. The results obtained reveal that the quality and abundance of the data is fundamental for the development of a good predictive model. Different models can be perfectly functional for the same classification problem. Analyses show a clear relationship between some of the characteristics and the clinical outcome. [-]

Palabras clave:

Aprendizaje automático , Radiómica , Imagen médica , Diagnóstico , Modelo predictivo , Machine learning , Radiomics , Medical imaging , Diagnosis , Predictive model.

Derechos de uso:

Reconocimiento - Compartir igual (by-sa)

Editorial:

Universitat Politècnica de València

Titulación:

Grado en Biotecnología-Grau en Biotecnologia

Tipo:

Proyecto/Trabajo fin de carrera/grado

recommendations

Este ítem aparece en la(s) siguiente(s) colección(ones)

ETSIAMN - Trabajos académicos [3541]
Escuela Técnica Superior de Ingeniería Agronómica y del Medio Natural

Mostrar el registro completo del ítem

Métodos de machine learning en estudios biomédicos

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Buscar en RiuNet

Listar

Todo RiuNet

Esta colección

Mi cuenta

Estadísticas

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Métodos de machine learning en estudios biomédicos

Ficheros en el ítem

Metadatos del ítem

recommendations

Este ítem aparece en la(s) siguiente(s) colección(ones)