BADDr: Bayes-Adaptive Deep Dropout RL for POMDPs.

Sammie Katt Hai Nguyen Frans A. Oliehoek Christopher Amato

Published in: AAMAS (2022)

Keyphrases

reinforcement learning
markov decision processes
state space
decision trees
partially observable markov decision processes
optimal policy
function approximation
continuous state
learning algorithm
search space
learning classifier systems
belief state
policy gradient