Variance-Reduced Conservative Policy Iteration.

Naman Agarwal Brian Bullins Karan Singh

Published in: ALT (2023)

Keyphrases

policy iteration
markov decision processes
model free
reinforcement learning
fixed point
sample path
temporal difference
least squares
optimal policy
finite state
linear programming
state space
optimal control
infinite horizon
markov decision process
policy evaluation
multistage
convergence rate
dynamic programming
average reward
markov decision problems
markov chain
cost function
bayesian networks
graphical models