A Unified Worst Case for Classical Simplex and Policy Iteration Pivot Rules.

Yann Disser Nils Mosis

Published in: ISAAC (2023)

Keyphrases

policy iteration
worst case
markov decision processes
simplex method
model free
sample path
linear programming
reinforcement learning
fixed point
least squares
lower bound
optimal policy
upper bound
markov decision process
infinite horizon
convergence rate
finite state
policy evaluation
np hard
temporal difference
optimal control
average reward
multi agent
data mining
markov decision problems
optical flow