First Order Optimization in Policy Space for Constrained Deep Reinforcement Learning.

Yiming Zhang Quan Vuong Keith W. Ross

Published in: CoRR (2020)

Keyphrases

reinforcement learning
optimal policy
action space
optimization algorithm
first order logic
function approximation
action selection
space time
global optimization
concave convex procedure
policy search
markov decision process
constrained optimization
optimization process
markov decision processes
function approximators
control policy
state and action spaces
temporal difference
partially observable
optimization method
control policies
policy gradient
policy evaluation
optimization problems
search space