Unified Policy Optimization for Robust Reinforcement Learning.

Zichuan Lin Li Zhao Jiang Bian Tao Qin Guangwen Yang

Published in: ACML (2019)

Keyphrases

reinforcement learning
optimal policy
policy search
global optimization
model free
approximate dynamic programming
control policy
policy iteration
markov decision process
robust optimization
action selection
partially observable environments
learning algorithm
markov decision problems
reward function
function approximation
computationally efficient
markov chain
markov decision processes
optimization algorithm
sufficient conditions
control policies
optimization problems
least squares
state space