Policy Gradient Method For Robust Reinforcement Learning.

Yue Wang Shaofeng Zou

Published in: ICML (2022)

Keyphrases

gradient method
actor critic
policy gradient
reinforcement learning
optimal policy
convergence rate
negative matrix factorization
convex formulation
optimization methods
markov decision process
step size
information retrieval
action selection
function approximation
document clustering
markov decision processes
state space
reinforcement learning algorithms
partially observable markov decision processes
multi objective
control policy
feature vectors
state action
keywords
learning algorithm
neural network
natural gradient learning