Better Exploration with Optimistic Actor-Critic.

Kamil Ciosek Quan Vuong Robert Loftin Katja Hofmann

Published in: CoRR (2019)

Keyphrases

actor critic
reinforcement learning
policy gradient
temporal difference
optimal control
approximate dynamic programming
gradient method
neuro fuzzy
function approximation
action selection
reinforcement learning algorithms
policy iteration
multi agent
evolutionary algorithm
active learning
fuzzy logic
average reward
machine learning