Reinventing Policy Iteration under Time Inconsistency.

Nixie S. Lesmana Huangyuan Su Chi Seng Pun

Published in: Trans. Mach. Learn. Res. (2022)

Keyphrases

policy iteration
markov decision processes
model free
reinforcement learning
optimal policy
fixed point
least squares
sample path
infinite horizon
markov decision process
temporal difference
average reward
linear programming
finite state
policy evaluation
optimal control
state space
dynamic programming
discounted reward
reward function
convergence rate
average cost
decision making
neural network