A Short Note on Soft-max and Policy Gradients in Bandits Problems.

Published in: CoRR (2020)

Keyphrases

optimization problems
problems involving
computer vision
solving problems
real time
data sets
neural network
np complete
asymptotically optimal