Trust Region Policy Optimization of POMDPs.

Kamyar Azizzadenesheli Manish Kumar Bera Animashree Anandkumar

Published in: CoRR (2018)

Keyphrases

trust region
optimization methods
line search
partially observable markov decision processes
optimal policy
global optimum
optimization algorithm
optimization method
hessian matrix
optimization problems
step size
newton method
column generation
quadratic programming
global convergence
risk minimization
reinforcement learning
learning algorithm
markov decision processes
constrained optimization
levenberg marquardt
dynamical systems
multi objective
evolutionary algorithm
search algorithm