Resumen:
|
[ES] El objetivo de este TFG es diseñar e implementar un modelo en el ámbito de la interacción humano-máquina (HCI) eficiente, modular y escalable para detectar, a través de diferentes tipos de datos multimodales como ...[+]
[ES] El objetivo de este TFG es diseñar e implementar un modelo en el ámbito de la interacción humano-máquina (HCI) eficiente, modular y escalable para detectar, a través de diferentes tipos de datos multimodales como grabaciones de audio o vídeo, la necesidad de un usuario de retroalimentación o interacción de la máquina. Este modelo se basa en una arquitectura de tres capas de comunicación ascendente, donde la capa inferior está constituida por una serie de módulos completamente personalizables, encargados de obtener y tratar todo tipo de datos multimodales, con una capa intermedia encargada del control de la ejecución del programa y de la unificación de los datos, y con una última capa compuesta por una IA capaz de predecir la necesidad de interacción humano-máquina mediante la inferencia de la unión de dichos datos. La implementación de este modelo estará compuesta de tres módulos de datos; audio, video y reloj inteligente, que junto al uso de técnicas y tecnologías de proceso de vanguardia permitirán entrenar la última capa del modelo en un caso de uso concreto. Finalmente, se pondrá a prueba y se calculará el rendimiento de este modelo.
[-]
[EN] The objective of this TFG is to design and implement an efficient, modular and scalable model in the field of human-machine interaction (HCI) to detect, through different types of multimodal data such as audio or video ...[+]
[EN] The objective of this TFG is to design and implement an efficient, modular and scalable model in the field of human-machine interaction (HCI) to detect, through different types of multimodal data such as audio or video recordings, a user's need for feedback or machine interaction. This model is based on a three-layer architecture of bottom-up communication, where the lower layer is constituted by a series of fully customizable modules, in charge of obtaining and processing all types of multimodal data, with an intermediate layer in charge of program execution control and data unification, and with a last layer composed of an AI capable of predicting the need for human-machine interaction by inferring from the union of such data. The implementation of this model will be composed of three data modules; audio, video and smart watch, which together with the use of state-of-the-art processing techniques and technologies will allow training the last layer of the model on a specific use case. Finally, the performance of this model will be tested and calculated.
[-]
|