Explicable Policy Search.

Yu Ze Gong Tony Zhang

Published in: NeurIPS (2022)

Keyphrases

policy search
reinforcement learning
continuous state
continuous action
dynamic programming
reinforcement learning algorithms
policy gradient
reward function
markov decision problems
random walk
optimal policy
function approximation
finite state
function approximators