TOPS: Transition-Based Volatility-Reduced Policy Search.

Liangliang Xu Daoming Lyu Yangchen Pan Aiwen Jiang Bo Liu

Published in: AAMAS Workshops (2022)

Keyphrases

policy search
reinforcement learning
dynamic programming
continuous state
reinforcement learning algorithms
continuous action
learning algorithm
partially observable markov decision processes
markov decision problems
policy gradient