Revisiting stochastic off-policy action-value gradients.

Yemi Okesanjo Victor Kofia

Published in: CoRR (2017)

Keyphrases

learning automata
data sets
monte carlo
real time
stochastic optimization
database
databases
decision making
lower bound
visual features
stochastic model