What if the World Were Different? Gradient-Based Exploration for New Optimal Policies.

Rui Silva Francisco S. Melo Manuela Veloso

Published in: GCAI (2018)

Keyphrases

optimal policy
markov decision processes
decision problems
reinforcement learning
finite horizon
dynamic programming
state space
long run
finite state
multistage
infinite horizon
average reward
sufficient conditions
dynamic programming algorithms
state dependent
average reward reinforcement learning
initial state
markov decision process
serial inventory systems
control policies
policy iteration
markov decision problems
bayesian reinforcement learning
action selection
average cost
reinforcement learning algorithms
data mining