Regularized Policies are Reward Robust.

Hisham Husain Kamil Ciosek Ryota Tomioka

Published in: AISTATS (2021)

Keyphrases

reward function
reinforcement learning
real time
objective function
optimal policy
database
computationally efficient
reinforcement learning algorithms
regularization method
weighted least squares