Efficiently Breaking the Curse of Horizon: Double Reinforcement Learning in Infinite-Horizon Processes.

Nathan Kallus Masatoshi Uehara

Published in: CoRR (2019)

Keyphrases

infinite horizon
optimal policy
reinforcement learning
optimal control
markov decision processes
finite horizon
markov decision process
partially observable
dynamic programming
state space
long run
stochastic demand
production planning
single item
policy iteration
decision problems
average cost
temporal difference
function approximation
lost sales
machine learning
reinforcement learning algorithms
finite state
multistage
action space
multi agent