Off-policy temporal difference learning with distribution adaptation in fast mixing chains.

Arash Givchi Maziar Palhang

Published in: Soft Comput. (2018)

Keyphrases

temporal difference learning
function approximation
fixed point
evaluation function
approximate value iteration
reinforcement learning
temporal difference
game playing
probability distribution
markov decision process
least squares
support vector
neural network
linear programming
random walk
reinforcement learning algorithms
policy iteration
function approximators