Resumen:
|
[ES] Este trabajo de fin de máster se centra en una exhaustiva evaluación y comparación de tres modelos Transformer: ViT, Swin y MaxViT, que fueron preentrenados en ImageNet y adaptados al conjunto de datos médicos NIH ...[+]
[ES] Este trabajo de fin de máster se centra en una exhaustiva evaluación y comparación de tres modelos Transformer: ViT, Swin y MaxViT, que fueron preentrenados en ImageNet y adaptados al conjunto de datos médicos NIH Chest X-rays. El objetivo principal es analizar en profundidad el rendimiento de estas arquitecturas en la clasificación de 14 patologías en radiografías de tórax. Se busca una comprensión más detallada explorando métricas clave como el área bajo la curva ROC (AUC), la velocidad de inferencia (Throughput), la cantidad de parámetros y el numero de operaciones aritméticas de punto flotante (FLOPs).
Para lograrlo, se establecen objetivos específicos que incluyen una revisión exhaustiva del estado del arte en la clasificación de imágenes y la adaptación de los modelos preentrenados al conjunto de datos médicos. Los modelos se ajustan en cuatro escalas diferentes y se evalúan para tres resoluciones de imagen distintas. La evaluación se realiza en términos de AUC y se compara el rendimiento de cada arquitectura en diversas configuraciones.
Además, se realiza un análisis detallado del rendimiento en función del número de parámetros, FLOPs y Throughput, lo que brinda una comprensión más profunda de las capacidades de cada arquitectura. Este trabajo contribuye al campo de la clasificación de imágenes médicas al proporcionar información valiosa sobre el rendimiento de las arquitecturas Transformer en términos de rendimiento y eficiencia computacional.
[-]
[EN] This master's thesis focuses on a comprehensive evaluation and comparison of three Transformer models: ViT, Swin and MaxViT, which were pretrained on ImageNet and adapted to the medical dataset NIH Chest X-rays. The ...[+]
[EN] This master's thesis focuses on a comprehensive evaluation and comparison of three Transformer models: ViT, Swin and MaxViT, which were pretrained on ImageNet and adapted to the medical dataset NIH Chest X-rays. The main objective is to deeply analyze the performance of these architectures in the classification of 14 pathologies in chest X-ray images. A more detailed understanding is sought by exploring key metrics such as the Area Under the ROC Curve (AUC), inference speed (throughput), the number of parameters, and floating-point arithmetic operations (FLOPs).
To achieve this, specific objectives are set, including a comprehensive review of the state of the art in image classification and the adaptation of pretrained models to the medical dataset. The models are fine-tuned at four different scales and evaluated for three different image resolutions. The evaluation is conducted in terms of AUC, and the performance of each architecture is compared under various configurations.
Furthermore, a detailed analysis of performance in terms of the number of parameters, FLOPs, and throughput is carried out, providing a deeper understanding of the capabilities of each architecture. This work contributes to the field of medical image classification by providing valuable insights into the performance of Transformer architectures in terms of both performance and computational eficiency.
[-]
|