Deep Variational Reinforcement Learning for POMDPs.

Maximilian Igl Luisa M. Zintgraf Tuan Anh Le Frank Wood Shimon Whiteson

Published in: CoRR (2018)

Keyphrases

reinforcement learning
partially observable markov decision processes
function approximation
state space
policy search
partially observable
markov decision processes
reinforcement learning algorithms
continuous state
image segmentation
optimal policy
machine learning
multi agent
optical flow
learning algorithm
model free
partially observable environments
dynamic programming
temporal difference
belief state
transfer learning
policy gradient
policy iteration algorithm
markov decision problems
average reward
function approximators
long run
learning problems
supervised learning
learning process