Optimal Policies for the Homogeneous Selective Labels Problem.

Published in: CoRR (2020)

Keyphrases

optimal policy
markov decision processes
state space
infinite horizon
decision problems
reinforcement learning
finite horizon
dynamic programming
finite state
state dependent
long run
multistage
training data
average reward
sufficient conditions
lost sales
bayesian reinforcement learning
serial inventory systems
dynamic programming algorithms
initial state
policy iteration
cost function
multi agent
average cost
markov decision process
machine learning
semi markov decision processes
average reward reinforcement learning