Dual Policy Iteration.

Wen Sun Geoffrey J. Gordon Byron Boots J. Andrew Bagnell

Published in: NeurIPS (2018)

Keyphrases

policy iteration
markov decision processes
model free
fixed point
reinforcement learning
sample path
optimal policy
least squares
policy evaluation
temporal difference
infinite horizon
finite state
markov decision process
average reward
markov decision problems
convergence rate
average cost
learning algorithm
state space
multi agent
search algorithm
long run
dynamical systems