On Robust Reinforcement Learning with Lipschitz-Bounded Policy Networks.

Nicholas H. Barbara Ruigang Wang Ian R. Manchester

Published in: CoRR (2024)

Keyphrases

reinforcement learning
optimal policy
function approximation
policy search
action selection
partially observable
markov decision processes
action space
asymptotically optimal
learning algorithm
state space
decision problems
supply chain
learning process
complex networks
community structure
end to end
average reward
policy gradient
policy evaluation
actor critic
transition model
partially observable environments