Counterexample Guided RL Policy Refinement Using Bayesian Optimization.

Briti Gangopadhyay Pallab Dasgupta

Published in: NeurIPS (2021)

Keyphrases

optimal policy
reinforcement learning
optimization method
optimization algorithm
bayesian networks
markov decision process
optimization process
global optimization
learning algorithm
action space
multi agent
model checking
optimization problems
action selection
markov decision processes
maximum likelihood
function approximation
evolutionary algorithm
constrained optimization
partially observable
neural network
control policy
policy search
state and action spaces
partially observable domains