Q-learning for POMDP: An application to learning locomotion gaits.

Tixian Wang Amirhossein Taghvaei Prashant G. Mehta

Published in: CoRR (2019)

Keyphrases

reinforcement learning
learning algorithm
learning process
cooperative
learning tasks
state space
supervised learning
machine learning
multi agent
optimal policy
learning rate
finite state
temporal difference learning
reinforcement learning methods