Resumen:
|
[EN] Nowadays, the research on computer vision and machine learning is in its best moment.
The computational capacity and communications currently available in any device, have
risen new challenges. Among them, the task ...[+]
[EN] Nowadays, the research on computer vision and machine learning is in its best moment.
The computational capacity and communications currently available in any device, have
risen new challenges. Among them, the task of human or object recognition on images
and video are impulsed by the best universities and technological companies. Concretely,
human activity recognition in videos has a direct application in many environments:
security systems, interaction analysis, illness identification, etc.
For this reason, this project proposes a prospective study about the task of THUMOS
competition on computer vision. In this task, it is required to classify videos by activity,
among a set of 101 activities, belonging to 5 different kinds: Human-Human interaction,
Human-Object interaction, sports, body-motion, and playing musical instruments.
This thesis proposes, applied to this task for the first time, a model based on artificial
neural networks that uses improved Dense Trajectories as a feature extraction technique.
This thesis will analize the current state-of-the-art, and it will perform experiments in order
to obtain the best model for this task, and afterwards, these experiments will be compared
with the results provided by the approaches on the top ten of the THUMOS classification
[-]
[ES] Actualmente, la investigación en el campo de la visión por computador y el aprendizaje
automático se encuentra en su mejor momento. La capacidad de cómputo y de
comunicación disponible hoy en dia en cualquier ...[+]
[ES] Actualmente, la investigación en el campo de la visión por computador y el aprendizaje
automático se encuentra en su mejor momento. La capacidad de cómputo y de
comunicación disponible hoy en dia en cualquier dispositivo ha despertado nuevos
desafios. Entre ellos, las tareas de reconocimiento de personas o elementos dentro de
imágenes o vídeos, se encuentran impulsadas por las mejores universidades y empresas
tecnológicas. Concretamente, el reconocimiento de la actividad llevada a cabo por
personas dentro de los vídeos, comprende una tarea que tiene aplicabilidad directa en
numerosos entornos: sistemas de seguridad, análisis de la interacción, identificación de
enfermedades, etc.
Por ello, en este proyecto se propone un estudio prospectivo sobre la tarea planteada en
la competición de visión por computador THUMOS. En esta tarea, se requiere la
clasificación de vídeos por actividad, de entre un conjunto de 101 actividades,
pertenecientes a 5 diferentes grupos: interacción humano-humano, interacción humanoobjeto,
deportes, movimientos corporales y personas tocando diversos instrumentos.
En este trabajo se plantea un modelo basado en redes neuronales artificiales, que se
aplica por primera vez a esta tarea, utilizando la técnica del estado del arte improved
Dense Trajectories para la extracción de características. Se analizará, además, el estado
de la cuestión hasta el momento, y se llevará a cabo la experimentación con el objetivo de
obtener el mejor modelo, para posteriormente comparar los resultados con los obtenidos
en las aproximaciones que conforman el top-ten de la clasificación.
[-]
|