Batch-Switching Policy Iteration.

Shivaram Kalyanakrishnan Utkarsh Mall Ritish Goyal

Published in: IJCAI (2016)

Keyphrases

policy iteration
markov decision processes
least squares
model free
fixed point
reinforcement learning
sample path
optimal policy
temporal difference
markov decision process
infinite horizon
finite state
policy evaluation
average reward
optimal control
convergence rate
linear programming
state space
markov decision problems
dynamic programming
decision making
average cost
sufficient conditions
probabilistic model
discounted reward