Deterministic Value-Policy Gradients.

Qingpeng Cai Ling Pan Pingzhong Tang

Published in: CoRR (2019)

Keyphrases

fluid model
optimal policy
asymptotically optimal
action selection
neural network
search algorithm
linear programming