On overfitting and asymptotic bias in batch reinforcement learning with partial observability.

Vincent François-Lavet Damien Ernst Raphael Fonteneau

Published in: CoRR (2017)

Keyphrases

partial observability
reinforcement learning
partially observable
symbolic model checking
planning problems
markov decision process
state space
partially observable markov decision processes
fully observable
belief state
function approximation
dynamical systems
belief space
model free
learning agent
optimal control
learning algorithm
planning under partial observability
reinforcement learning algorithms
temporal difference
action selection
planning domains
evaluation function
decision problems
markov decision processes
dynamic programming