CAMEO: Curiosity Augmented Metropolis for Exploratory Optimal Policies.

Mohamed Alami Chehboune Fernando Llorente Rim Kaddah Luca Martino Jesse Read

Published in: CoRR (2022)

Keyphrases

optimal policy
markov decision processes
dynamic programming
decision problems
infinite horizon
state space
simulated annealing
finite horizon
finite state
reinforcement learning
state dependent
multistage
long run
bayesian reinforcement learning
markov decision process
average reward
sufficient conditions
policy iteration
serial inventory systems
initial state
control policies
dynamic programming algorithms
average reward reinforcement learning
lost sales
average cost
finite number