Desarrollo, optimización y despliegue de un servidor eficiente para la inferencia de redes neuronales de apoyo al radiodiagnóstico.

Dorronsoro Larbide, Ibai

RiuNet repositorio UPV
:
Docencia
:
Trabajos académicos
:
Servicio de alumnado - Trabajos académicos
:
Ver ítem

Identificarse

Buscar en RiuNet

Listar

Todo RiuNet
Esta colección

Mi cuenta

Acceder

Estadísticas

Ver Estadísticas de uso

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Desarrollo, optimización y despliegue de un servidor eficiente para la inferencia de redes neuronales de apoyo al radiodiagnóstico.

Mostrar el registro sencillo del ítem

Ficheros en el ítem

Nombre: Dorronsoro - ...

Tamaño: 20.48Mb

Formato: PDF

Abrir

dc.contributor.advisor	Alonso Jordá, Pedro	es_ES
dc.contributor.advisor	Dolz Zaragozá, Manuel Francisco	es_ES
dc.contributor.author	Dorronsoro Larbide, Ibai	es_ES
dc.date.accessioned	2023-01-09T08:05:40Z
dc.date.available	2023-01-09T08:05:40Z
dc.date.created	2022-12-22
dc.date.issued	2023-01-09	es_ES
dc.identifier.uri	http://hdl.handle.net/10251/191094
dc.description.abstract	[ES] En este documento se presenta el Trabajo de Final de Máster del Máster Universitario en Computación en la Nube y de Altas Prestaciones de la Universidad Politécnica de Valencia, consistente en el desarrollo, optimización y puesta en marcha de un servidor de redes neuronales de altas prestaciones para el apoyo al radiodiagnóstico. La herramienta base utilizada para ello ha sido NVIDIA Triton Inference Server (Triton), un software de código abierto que permite estandarizar el despliegue y la ejecución de redes de inteligencia artificial (Artificial Intelligence o AI) independientemente del entorno de desarrollo en el que fueron construidos, posibilitando su ejecución en cualquier infraestructura hardware basada en CPU o GPU. En el servidor construido, desplegado en el Hospital General Universitario de Castellón (HGUCS), se han implementado los modelos de AI desarrollados en dos proyectos de investigación liderados por la Universitat Jaume I (UJI) de Castellón, dirigidos ambos al apoyo al radiodiagnóstico para la detección de patologías en los servicios de urgencias hospitalarios: una red neuronal profunda de tipo convolucional y un segundo modelo de tipo transformador visual. Una de las tareas fundamentales a la hora de implantar una solución de inferencia en AI a escala es completar una fase de optimización que permita cumplir con los requisitos de servicio de latencia y rendimiento de la solución. Para ello, se han realizado ensayos software sobre las redes anteriormente mencionadas, variando parámetros como la concurrencia de clientes, el tamaño de lote de la red neuronal y el tiempo de espera máximo hasta llenar el lote, con el objetivo de reducir la latencia y aumentar el rendimiento. Estos test se han repetido en máquinas de características diferentes para valorar los cambios de productividad, latencia y rendimiento general en función de la plataforma hardware subyacente. En concreto, se ha trabajado con un nodo con dos GPUs NVIDIA RTX A6000, así como con tres plataformas de alto rendimiento y bajo consumo, Jetson Nano, Jetson Xavier y Jetson Orin, en las que se han probado distintos modos de configuración de la CPU y la GPU para ajustar el rendimiento y el consumo de energía. Las imágenes a analizar se obtienen en formato DICOM (Digital Imaging and Communications in Medicine), estándar de transmisión y almacenamiento de datos médicos. Dado que Triton carece de soporte para dicho protocolo, ha sido necesario el desarrollo de un módulo extra para comunicarse con el sistema de información del HGUCS. Este modulo también almacena los resultados anonimizados de la inferencia de las imágenes médicas en una base de datos (Database o DB). En un futuro, los datos acumulados se utilizarán para realizar una validación doble ciego que permita comprobar el funcionamiento de las redes en un escenario real, donde una persona experta en radiología diagnosticará las mismas imágenes que el servidor en el HGUCS.	es_ES
dc.description.abstract	[EN] This document describes the Master's Dissertation of the Master's Degree in Cloud and High-Performance Computing of the Universidad Politécnica de Valencia, consisting of the de¿velopment, optimization and implementation of a high performance neural network server to support radiodiagnosis. The core tool used to achieve this goal has been NVIDIA Triton Infe¿rence Server (Triton), an open-source software that allows standardizing the deployment and execution of artificial intelligence networks (Artificial Intelligence or AI) regardless of the de¿velopment environment in which they were built, enabling their execution on any hardware infrastructure based on CPU or GPU. In the built server, deployed at the General University Hospital of Castellón (HGUCS), the AI models developed in two research projects led by the Universitat Jaume I (UJI) of Castellón have been implemented, both aimed at supporting radiodiagnosis for the detection of pathologies in hospital emergency departments: a convolutional deep neural network and a second model of visual transformer type. One of the essential tasks involved in implementing an AI inference solution at scale is to complete an optimization phase to meet the latency and throughput service requirements of the solution. To this end, software experiments have been performed on the aforementioned, varying parameters such as client concurrency, neural network batch size and maximum waiting time to fill the batch, with the aim of reducing latency and increasing throughput. These tests have been repeated on machines with different characteristics to assess the th¿roughput, latency and overall performance variations depending on the underlying hardware platform. Specifically, a node with two NVIDIA RTX A6000 GPUs, as well as three high¿performance, low-power platforms, Jetson Nano, Jetson Xavier and Jetson Orin have been tested with different CPU and GPU configuration modes to tune performance and power consumption. The images to be analyzed are obtained in DICOM (Digital Imaging and Communications in Medicine) format, a standard for transmission and storage of medical data. Since Triton lacks support for this protocol, it has been necessary to develop an extra module to communicate with the HGUCS information system. This module also stores the anonymized results of medical image inference in a database (DB). In the future, the accumulated data will be used to perform a double-blind validation to test the performance of the networks in a real scenario, where a radiology expert will diagnose the same images as the server at HGUCS.	es_ES
dc.format.extent	109	es_ES
dc.language	Español	es_ES
dc.publisher	Universitat Politècnica de València	es_ES
dc.rights	Reserva de todos los derechos	es_ES
dc.subject	Redes neuronales	es_ES
dc.subject	Inferencia	es_ES
dc.subject	Computación de altas prestaciones	es_ES
dc.subject	Eficiencia	es_ES
dc.subject	Optimización	es_ES
dc.subject	Imagen médica	es_ES
dc.subject	Aprendizaje profundo	es_ES
dc.subject	DICOM	es_ES
dc.subject	NVIDIA Triton	es_ES
dc.subject	Neural networks	es_ES
dc.subject	Inference	es_ES
dc.subject	High performance computing	es_ES
dc.subject	Efficiency	es_ES
dc.subject	Optimization	es_ES
dc.subject	Medical image	es_ES
dc.subject	Deep learning	es_ES
dc.subject	Digital imaging and communications in medicine (DICOM)	es_ES
dc.subject.classification	CIENCIAS DE LA COMPUTACION E INTELIGENCIA ARTIFICIAL	es_ES
dc.subject.other	Máster Universitario en Computación en la Nube y de Altas Prestaciones / Cloud and High-Performance Computing-Màster Universitari en Computació en Núvol i d'Altes Prestacions / Cloud and High-Performance Computing	es_ES
dc.title	Desarrollo, optimización y despliegue de un servidor eficiente para la inferencia de redes neuronales de apoyo al radiodiagnóstico.	es_ES
dc.title.alternative	Development, optimization and deployment of an efficient server for the inference of neural networks to support radiodiagnosis.	es_ES
dc.title.alternative	Desenvolupament, optimització i desplegament d'un servidor eficient per a la inferència de xarxes neuronals de suport al radiodiagnòstic.	es_ES
dc.type	Tesis de máster	es_ES
dc.rights.accessRights	Abierto	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació	es_ES
dc.description.bibliographicCitation	Dorronsoro Larbide, I. (2022). Desarrollo, optimización y despliegue de un servidor eficiente para la inferencia de redes neuronales de apoyo al radiodiagnóstico. Universitat Politècnica de València. http://hdl.handle.net/10251/191094	es_ES
dc.description.accrualMethod	TFGM	es_ES
dc.relation.pasarela	TFGM\151868	es_ES

Este ítem aparece en la(s) siguiente(s) colección(ones)

Servicio de alumnado - Trabajos académicos [7391]

Mostrar el registro sencillo del ítem

Desarrollo, optimización y despliegue de un servidor eficiente para la inferencia de redes neuronales de apoyo al radiodiagnóstico.

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Buscar en RiuNet

Listar

Todo RiuNet

Esta colección

Mi cuenta

Estadísticas

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Desarrollo, optimización y despliegue de un servidor eficiente para la inferencia de redes neuronales de apoyo al radiodiagnóstico.

Ficheros en el ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)