Stable Policy Optimization via Off-Policy Divergence Regularization.

Ahmed Touati Amy Zhang Joelle Pineau Pascal Vincent

Published in: CoRR (2020)

Keyphrases

optimization algorithm
global optimization
optimization methods
optimization method
optimization process
parameter selection
stochastic gradient descent
optimization problems
maximum likelihood
optimal policy
combinatorial optimization
constrained optimization
regularization parameter