Resumen:
|
[ES] El CERN (Centro de Investigación de Física de Altas Energías (HEP)), ofrece desafíos informáticos únicos como consecuencia de la gran cantidad de datos que genera el Gran Colisionador de Hadrones (LHC). El CERN ha ...[+]
[ES] El CERN (Centro de Investigación de Física de Altas Energías (HEP)), ofrece desafíos informáticos únicos como consecuencia de la gran cantidad de datos que genera el Gran Colisionador de Hadrones (LHC). El CERN ha concebido y mantiene un software denominado ROOT, que es el estándar de facto para el análisis de datos HEP.
Este framework ofrece una interfaz de alto nivel y fácil de utilizar denominada RDataFrame, que permite gestionar y procesar grandes conjuntos de datos.
En los últimos años ha visto extendida su funcionalidad para poder aprovechar de capacidades de cómputo distribuidas.
Gracias a su modelo de programación declarativa, la API orientada al usuario se puede desacoplar del backend de ejecución real. Este desacoplamiento permite escalar un análisis físico a miles de núcleos computacionales, de manera automática, sobre varios tipos de recursos distribuidos. De hecho, el módulo RDataFrame distribuido ya admite el uso de motores establecidos de la industria en general, como Apache Spark o Dask. No obstante lo anterior, estas soluciones actuales no van a ser suficientes para cumplir con los requisitos futuros en cuanto a la cantidad de datos que van a generar los nuevos aceleradores que están proyectados. Es de interés, por ese motivo, investigar un enfoque diferente, el que ofrece la computación serverless. Basándonos en un primer prototipo que utiliza AWS Lambda, este trabajo presenta la creación de un backend nuevo para RDataFrame distribuido sobre la herramienta OSCAR, un framework de código abierto que soporta la computación serverless. La implementación presenta nuevas formas, con respecto al prototipo basado en AWS Lambda, de sincronizar el trabajo de las funciones.
[-]
[EN] CERN (Research Center for High Energy Physics (HEP)), offers unique computational challenges as a result of the large amount of data generated by the Large Hadron Collider (LHC). CERN has developed and supports a ...[+]
[EN] CERN (Research Center for High Energy Physics (HEP)), offers unique computational challenges as a result of the large amount of data generated by the Large Hadron Collider (LHC). CERN has developed and supports a software called ROOT, which is the de facto standard for HEP data analysis.
This framework offers a high-level and easy-to-use interface called RDataFrame, which allows managing and processing large data sets.
In recent years, its functionality has been extended to take advantage of distributed computing capabilities.
Thanks to its declarative programming model, the user-facing API can be decoupled from the actual execution backend. This decoupling allows physical analysis to scale automatically to thousands of computational cores over various types of distributed resources. In fact, the distributed RDataFrame module already supports the use of established general industry engines such as Apache Spark or Dask. Notwithstanding the foregoing, these current solutions will not be sufficient to meet future requirements in terms of the amount of data that the new projected accelerators will generate. It is of interest, for this reason, to investigate a different approach, the one offered by serverless computing. Based on a first prototype using AWS Lambda, this work presents the creation of a new backend for RDataFrame distributed over the OSCAR tool, an open source framework that supports serverless computing. The implementation introduces new ways, relative to the AWS Lambda-based prototype, to synchronize the work of functions.
[-]
|