CAMEO: Curiosity Augmented Metropolis for Exploratory Optimal Policies.

Mohamed Alami Chehboune Rim Kaddah Luca Martino Fernando Llorente Jesse Read

Published in: EUSIPCO (2022)

Keyphrases

optimal policy
decision problems
markov decision processes
dynamic programming
finite horizon
state space
reinforcement learning
finite state
infinite horizon
simulated annealing
long run
state dependent
average reward reinforcement learning
average reward
sufficient conditions
control policies
dynamic programming algorithms
markov decision process
serial inventory systems
multistage
initial state
markov decision problems
policy iteration
average cost
partially observable markov decision processes
bayesian reinforcement learning