Discriminator Soft Actor Critic without Extrinsic Rewards.

Daichi Nishio Daiki Kuyoshi Toi Tsuneda Satoshi Yamane

Published in: CoRR (2020)

Keyphrases

actor critic
reinforcement learning
markov decision processes
policy iteration
reinforcement learning algorithms
temporal difference
approximate dynamic programming
optimal control
policy gradient
function approximation
state space
neuro fuzzy
gradient method
dynamic programming
model free
average reward
learning algorithm
optimal policy
control policy
reward function
reinforcement learning methods
learning problems
action space
infinite horizon