Policy Improvement by a Model-Free Dyna Architecture.

Kao-Shing Hwang Chia-Yue Lo

Published in: IEEE Trans. Neural Networks Learn. Syst. (2013)

Keyphrases

model free
rl algorithms
function approximation
policy iteration
temporal difference
reinforcement learning
policy evaluation
reinforcement learning algorithms
function approximators
average reward
optimal policy
temporal difference learning
reinforcement learning methods
learning algorithm
markov decision problems
evaluation function
radial basis function
least squares
pattern recognition