DeepTOP: Deep Threshold-Optimal Policy for MDPs and RMABs.

Khaled Nakhleh I-Hong Hou

Published in: NeurIPS (2022)

Keyphrases

optimal policy
markov decision processes
finite horizon
state space
reinforcement learning
decision problems
average reward
policy iteration
infinite horizon
markov decision process
dynamic programming
finite state
long run
long run average cost
average cost
state dependent
markov decision problems
multistage
reward function
discount factor
control policies
initial state
partially observable
dynamic programming algorithms
bayesian reinforcement learning
sufficient conditions
lost sales
inventory level
machine learning
serial inventory systems