A POMDP Extension with Belief-dependent Rewards.

Mauricio Araya-López Olivier Buffet Vincent Thomas François Charpillet

Published in: NIPS (2010)

Keyphrases

reinforcement learning
belief state
belief space
markov decision processes
point based value iteration
partially observable markov decision processes
reward function
fully observable
sequential decision making under uncertainty
multi agent
state space
dynamical systems
planning under uncertainty
partially observable
hidden state
markov decision process
policy evaluation
learning algorithm
belief revision
knowledge base