Good, Better, Best: Textual Distractors Generation for Multi-Choice VQA via Policy Gradient.

Jiaying Lu Xin Ye Yi Ren Yezhou Yang

Published in: CoRR (2019)

Keyphrases

policy gradient
parametric optimization
reinforcement learning
neural network
gradient method
actor critic
monte carlo
optimal control
machine learning
np hard
sufficient conditions
function approximation