Average-Reward Reinforcement Learning with Trust Region Methods.

Xiaoteng Ma Xiaohang Tang Li Xia Jun Yang Qianchuan Zhao

Published in: CoRR (2021)

Keyphrases

feature selection
optimization methods
trust region
average reward reinforcement learning
image sequences
least squares
combinatorial optimization
approximation methods