Policy Gradient Optimization of Thompson Sampling Policies.

Seungki Min Ciamac C. Moallemi Daniel J. Russo

Published in: CoRR (2020)

Keyphrases

parametric optimization
policy gradient
policy gradient methods
policy search
optimization algorithm
reinforcement learning
optimal policy
function approximation
partially observable markov decision processes
model free reinforcement learning
natural actor critic
actor critic
reinforcement learning methods
gradient method
average reward
optimal control
optimization method
markov decision processes
optimization problems
state space
dynamic programming