Dual Policy Iteration.

Wen Sun Geoffrey J. Gordon Byron Boots J. Andrew Bagnell

Published in: CoRR (2018)

Keyphrases

policy iteration
markov decision processes
model free
fixed point
optimal policy
reinforcement learning
sample path
least squares
temporal difference
average reward
policy evaluation
markov decision process
infinite horizon
finite state
convergence rate
optimal control
markov decision problems
linear programming
dynamic programming
average cost
neural network
random variables
optical flow
function approximation
monte carlo