Variance-Reduced Conservative Policy Iteration.

Naman Agarwal Brian Bullins Karan Singh

Published in: CoRR (2022)

Keyphrases

policy iteration
markov decision processes
model free
reinforcement learning
least squares
fixed point
optimal policy
policy evaluation
sample path
finite state
variance reduction
temporal difference
markov decision process
infinite horizon
average reward
convergence rate
linear programming
markov decision problems
state space
markov chain
dynamic programming
sufficient conditions
average cost