- -

Métodos de machine learning en estudios biomédicos

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Compartir/Enviar a

Citas

Estadísticas

  • Estadisticas de Uso

Métodos de machine learning en estudios biomédicos

Mostrar el registro sencillo del ítem

Ficheros en el ítem

dc.contributor.advisor García García, Francisco es_ES
dc.contributor.advisor Forment Millet, José Javier es_ES
dc.contributor.author González Vilanova, Arturo es_ES
dc.date.accessioned 2019-10-07T12:02:43Z
dc.date.available 2019-10-07T12:02:43Z
dc.date.created 2019-09-20
dc.date.issued 2019-10-07 es_ES
dc.identifier.uri http://hdl.handle.net/10251/127574
dc.description.abstract [ES] El desarrollo de las tecnologías de alto rendimiento en biología molecular e imagen médica ha permitido el acceso a grandes cantidades de información de diverso tipo, lo que ahora se conoce como big data. Dicha información es de tal complejidad que resulta muy difícil el poder extraer conclusiones fiables y útiles de ella. Se requiere la utilización de métodos de estadística multivariante y un gran poder de computación para vislumbrar los patrones, modelos o normas que siguen los datos. En este contexto nace el machine learning o aprendizaje automático, una disciplina que fusiona métodos estadísticos con informática para elaborar algoritmos capaces de clasificar muestras, predecir resultados y realizar inferencias en base a la información que se les proporciona previamente como entrenamiento. Estos métodos aplicados a la biomedicina pueden extraer el sentido de datos de genómica, transcriptómica, imagen médica, entre otros, lo cual permitiría el avance de la medicina a una forma más personalizada, precisa y efectiva de atención médica. En este trabajo se aplican tres de los modelos de aprendizaje automático más populares en el contexto de la clasificación: k-vecinos más próximos, máquinas de soporte vectorial y bosques aleatorios. Los datos utilizados provienen de la extracción de características radiómicas de imagen médica y la extracción de características morfológicas de núcleos celulares. El objetivo es evaluar el desempeño de estos modelos sobre información potencialmente relevante en la clínica. En primer lugar, se hizo un análisis exploratorio de los datos consistente en el análisis de componentes principales y análisis de agrupamiento. El cuerpo principal del trabajo consta de seis pasos: procesado de los datos, estandarización, partición de los datos, selección de características, entrenamiento y validación. El procesado consistió en la eliminación de todas aquellas muestras y variables que por algún motivo no eran adecuadas para su inclusión en análisis posteriores. A continuación, se transformaron los datos por centrado y escalado. Los datos se dividieron en dos subconjuntos, de los cuales uno sirvió para el entrenamiento y otro para la validación. Durante la selección de características se redujo todavía más el número de variables a tener en cuenta para los modelos hasta tener solo aquellas más relevantes. Se entrenaron los modelos y se realizaron predicciones sobre las observaciones que no se usaron en el entrenamiento. Con los resultados obtenidos de las predicciones, se calcularon y analizaron métricas de precisión. Los resultados obtenidos revelan que la calidad y abundancia de los datos es fundamental para el desarrollo de un buen modelo predictivo. Diferentes modelos pueden ser perfectamente funcionales para un mismo problema de clasificación. Los análisis demuestran una clara relación entre algunas de las características y el resultado clínico. es_ES
dc.description.abstract [EN] The development of high-throughtput technologies in molecular biology and medical imaging has allowed access to large amounts of information of various types, known as big data. This information is so complex that it is very difficult to draw reliable and useful conclusions from it. It requires the use of multivariate statistical methods and a great deal of computing power to glimpse the patterns, models or standards that the data follow. In this context, machine learning is born, a discipline that fuses statistical methods with computing to develop algorithms capable of classifying samples, predicting results and making inferences based on the information previously provided as training. These methods applied to biomedicine can extract the sense of data from genomics, transcriptomics, medical imaging, among others, which would allow the advancement of medicine to a more personalized, accurate and effective form of medical care. In this work, three of the most popular machine learning models are applied in the context of classification: k-nearest neighbours, support vector machines and random forest. The data used come from the extraction of radiomic features from medical imaging and the extraction of morphological features from cell nuclei. The objective is to evaluate the performance of these models on potentially relevant information in the clinic. First, an exploratory data analysis was made, consisting of the principal components analysis and clustering analysis. The main body of work consists of six steps: data processing, standardization, data partitioning, feature selection, training and validation. The processing consisted in the elimination of all those samples and variables that for some reason were not suitable for inclusion in subsequent analyses. The data were then transformed by centering and scaling. The data were divided into two subsets, one of which was used for training and the other for validation. During the selection of characteristics, the number of variables to be taken into account for the models was further reduced to only those more relevant. Models were trained and predictions were made about observations that were not used in the training. With the results obtained from the predictions, precision metrics were calculated and analyzed. The results obtained reveal that the quality and abundance of the data is fundamental for the development of a good predictive model. Different models can be perfectly functional for the same classification problem. Analyses show a clear relationship between some of the characteristics and the clinical outcome. es_ES
dc.format.extent 45 es_ES
dc.language Español es_ES
dc.publisher Universitat Politècnica de València es_ES
dc.rights Reconocimiento - Compartir igual (by-sa) es_ES
dc.subject Aprendizaje automático es_ES
dc.subject Radiómica es_ES
dc.subject Imagen médica es_ES
dc.subject Diagnóstico es_ES
dc.subject Modelo predictivo es_ES
dc.subject Machine learning es_ES
dc.subject Radiomics es_ES
dc.subject Medical imaging es_ES
dc.subject Diagnosis es_ES
dc.subject Predictive model. es_ES
dc.subject.classification BIOQUIMICA Y BIOLOGIA MOLECULAR es_ES
dc.subject.classification ESTADISTICA E INVESTIGACION OPERATIVA es_ES
dc.subject.other Grado en Biotecnología-Grau en Biotecnologia es_ES
dc.title Métodos de machine learning en estudios biomédicos es_ES
dc.type Proyecto/Trabajo fin de carrera/grado es_ES
dc.rights.accessRights Abierto es_ES
dc.contributor.affiliation Universitat Politècnica de València. Departamento de Biotecnología - Departament de Biotecnologia es_ES
dc.contributor.affiliation Universitat Politècnica de València. Escuela Técnica Superior de Ingeniería Agronómica y del Medio Natural - Escola Tècnica Superior d'Enginyeria Agronòmica i del Medi Natural es_ES
dc.description.bibliographicCitation González Vilanova, A. (2019). Métodos de machine learning en estudios biomédicos. http://hdl.handle.net/10251/127574 es_ES
dc.description.accrualMethod TFGM es_ES
dc.relation.pasarela TFGM\102158 es_ES


Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem