Resumen:
|
[ES] Los sistemas de almacenamiento de imagen médica empleados en los hospitales (PACS) no han sido diseñados teniendo en cuenta la creación de herramientas analíticas o de aprendizaje automático, lo que hace que presenten ...[+]
[ES] Los sistemas de almacenamiento de imagen médica empleados en los hospitales (PACS) no han sido diseñados teniendo en cuenta la creación de herramientas analíticas o de aprendizaje automático, lo que hace que presenten ciertas limitaciones que dificultan el proceso de trabajo, dando lugar a que sea poco eficiente y automatizable.
El auge del big data ha supuesto el surgimiento de nuevos sistemas de almacenamiento y herramientas de procesado de datos que agilizan las tareas analíticas y de aprendizaje automático con cualquier tipo de datos. Tanto en datos no estructurados (imágenes, video, audio, ¿) como en datos tabulados. Es por ello, que el objetivo del presente proyecto consiste en realizar una investigación comparativa de tecnologías big data para la creación de un repositorio de imagen médica que sea capaz de agilizar y facilitar el proceso de trabajo para los nuevos perfiles profesionales basados en datos que están surgiendo.
Para el desarrollo del presente trabajo se han definido una serie de aproximaciones que son de interés comparativo para el estudio. Sin embargo, se abre la puerta a expandir la comparativa con nuevas tecnologías según inquietudes del alumno.
Las tareas de interés iniciales para el trabajo son las siguientes:
- Creación de un repositorio de prueba para el almacenamiento de imágenes utilizando herramientas del ecosistema hadoop (hdfs e hive).
- Creación de un repositorio de prueba para el almacenamiento de imágenes empleando un sistema tipo s3 (minio, ceph, etc).
- Generación de tablas con información enriquecida que permita la rápida identificación y filtrado de las imágenes médicas deseadas. Se comparará el rendimiento de sistemas de BBDDs tabulares como postgres frente al almacenamiento de archivos tabulares tipo data lake (orc, parquet, ¿)
- Comparativa de tiempos de ejecución y requerimientos de almacenamiento para un caso de uso de analítica, teniendo en cuenta varias herramientas de procesado de datos como Spark o Trino en los repositorios de prueba anteriormente descritos.
[-]
[EN] The medical image storage systems used in hospitals (PACS) have not been designed with the creation of analytical or machine learning tools in mind, which means that they have certain limitations that hinder the work ...[+]
[EN] The medical image storage systems used in hospitals (PACS) have not been designed with the creation of analytical or machine learning tools in mind, which means that they have certain limitations that hinder the work process, making it inefficient and difficult to automate.
The rise of big data has led to the emergence of new storage systems and data processing tools that speed up analytical and machine learning tasks with any type of data. Both in unstructured data (images, video, audio, ...) and tabulated data. For this reason, the aim of this project is to carry out a comparative investigation of big data technologies for the creation of a medical image repository that is capable of speeding up and facilitating the work process for the new professional profiles based on data that are emerging.
For the development of this work, a series of approaches have been defined that are of comparative interest for the study. However, the door is open to expand the comparative with new technologies according to the student's concerns.
The initial tasks of interest for the work are as follows:
- Creation of a test repository for image storage using tools from the hadoop ecosystem (hdfs and hive).
- Creation of a test repository for image storage using an s3 type system (minio, ceph, etc).
- Generation of tables with enriched information to allow rapid identification and filtering of the desired medical images. The performance of tabular DB systems such as postgres will be compared with the storage of tabular data lake files (orc, parquet, ...).
- Comparison of execution times and storage requirements for an analytics use case, taking into account various data processing tools such as Spark or Trino in the test repositories described above.
[-]
|