[ES] En el campo del aprendizaje por refuerzo se busca entrenar agentes inteligentes para que aprendan a tomar decisiones óptimas en situaciones complejas a través de la interacción con un ambiente. En este trabajo realizado ...[+]
[ES] En el campo del aprendizaje por refuerzo se busca entrenar agentes inteligentes para que aprendan a tomar decisiones óptimas en situaciones complejas a través de la interacción con un ambiente. En este trabajo realizado juntamente con Inditex, el agente será un robot que se encargue de la logística en un almacén, específicamente la retirada y entrada de cajas de forma automática en estanterías. A medida que se realizan distintas iteraciones del proyecto, se aumenta la complejidad del entorno y del problema a resolver para el agente. Se estudiarán el posible uso de diferentes arquitecturas de redes neuronales (Redes Neuronales Artificiales y Redes Neuronales Recurrentes) y técnicas de entrenamiento (por ejemplo, Deep Q-Learning, Actor-Critic y Policy Gradient) para seleccionar la mejor opción para cada escenario. Además de seleccionar correctamente los hiperparámetros, como el factor de descuento y la tasa de aprendizaje, para el mejor desempeño del modelo. Se espera que el agente logre aprender a realizar la logística del almacén de manera eficiente y efectiva.
[-]
[EN] In the field of reinforcement learning, the aim is to train intelligent agents to learn to make optimal decisions in complex situations through interaction with an environment. In this work carried out jointly with ...[+]
[EN] In the field of reinforcement learning, the aim is to train intelligent agents to learn to make optimal decisions in complex situations through interaction with an environment. In this work carried out jointly with Inditex, the agent will be a robot in charge of logistics in a warehouse, specifically the automatic removal and entry of boxes on shelves. As different iterations of the project are carried out, the complexity of the environment and the problem to be solved by the agent increases. The possible use of different neural network architectures (Artificial Neural Networks and Recurrent Neural Networks) and training techniques (e.g. Deep Q-Learning, Actor-Critic and Policy Gradient) will be studied to select the best option for each scenario. In addition to correctly selecting the hyperparameters, such as discount factor and learning rate, for the best model performance. The agent is expected to learn how to perform warehouse logistics efficiently and effectively.
[-]
[CA] Al camp de l’aprenentatge per reforç es busca entrenar agents intel·ligents perquè
aprenguin a prendre decisions òptimes en situacions complexes a través de la interacció
amb un ambient. En aquest treball realitzat ...[+]
[CA] Al camp de l’aprenentatge per reforç es busca entrenar agents intel·ligents perquè
aprenguin a prendre decisions òptimes en situacions complexes a través de la interacció
amb un ambient. En aquest treball realitzat juntament amb Inditex, l’agent será un robot
que s’encarregui de la logística en un magatzem, específicament la retirada i l’entrada
de caixes de forma automàtica en prestatgeries. A mesura que es fan diferents iteracions
del projecte, augmenta la complexitat de l’entorn i del problema a resoldre per a l’agent.
S’estudiaran el possible ús de diferents arquitectures de xarxa neuronal (Xarxes Neuronals Artificials i Xarxes Neuronals Recurrents) i tècniques d’entrenament (per exemple,
Deep Q-Learning, Actor-Critic i Policy Gradient) per seleccionar la millor opció per a
cada escenari. A més, heu de seleccionar correctament els hiperparàmetres, com el factor de descompte i la taxa d’aprenentatge, en l’exercici del model. S’espera que l’agent
aconsegueixi aprendre a fer la logística del magatzem de forma eficient i efectiva.
[-]
|