Variance-Reduced Off-Policy Memory-Efficient Policy Search.

Daoming Lyu Qi Qi Mohammad Ghavamzadeh Hengshuai Yao Tianbao Yang Bo Liu

Published in: CoRR (2020)

Keyphrases

memory efficient
policy search
reinforcement learning
continuous state
dynamic programming
reinforcement learning algorithms
continuous action
neural network
search space
sufficient conditions
steady state