Resumen:
|
[EN] The massive amount of multimedia information currently available through the Internet demands
efficient techniques to extract knowledge from that Big Data. In this work, we propose an architecture
to capture, process, ...[+]
[EN] The massive amount of multimedia information currently available through the Internet demands
efficient techniques to extract knowledge from that Big Data. In this work, we propose an architecture
to capture, process, analyze and visualize data coming from multiple streaming multimedia TV stations
and radio stations. For that, we rely on the Hadoop framework available within the IBM InfoSphere
BigInsights platform. We create a workflow to automate the different stages that range from
Automatic Speech Recognition using open-source tools to visualization by means of the R framework.
We emphasize techniques such as diarization and the optimization of the number of Hadoop nodes,
provisioned from Cloud infrastructures, to deliver enhanced performance.
The results show that it is possible to automate knowledge extraction from multimedia data running on
virtualized infrastructure by means of Big Data techniques
[-]
[ES] La gran cantidad de información multimedia actualmente disponible en Internet demanda técnicas
eficientes para la extraer conocimiento de los grandes volúmenes de datos. En este trabajo, se
propone una arquitectura ...[+]
[ES] La gran cantidad de información multimedia actualmente disponible en Internet demanda técnicas
eficientes para la extraer conocimiento de los grandes volúmenes de datos. En este trabajo, se
propone una arquitectura para capturar, procesar, analizar y visulizar información proveniente de
streaming multimedia como emisoras de televisión o radio. Para ello, se utiliza la infraestructura de
Hadoop existente en la plataforma IBM InfoSphere BigInsights. Se ha creado un flujo de trabajo para
automatizar las diferentes etapas de las que se compone, extendiendose desde el reconocimiento
vocal utilizando herramientas de código abierto hasta la visualización utilizando R. Se utilizan técnicas
como la diarización y la optimización del número de nodos en Hadoop, que son aprovisionados por
medio de infraestructuras Cloud para su mejor desempeño.
Los resultados muestran que es posible automatizar la extracción del conocimiento de datos
multimedia utilizando infraestructuras virtuales por medio de técnicas de Big Data.
[-]
|