Q-learning for POMDP: An application to learning locomotion gaits.

Tixian Wang Amirhossein Taghvaei Prashant G. Mehta

Published in: CDC (2019)

Keyphrases

reinforcement learning
learning algorithm
learning problems
reinforcement learning methods
learning process
supervised learning
function approximation
model free reinforcement learning
three dimensional
state space
optimal policy
degrees of freedom
temporal difference learning