Hardware-Friendly Actor-Critic Reinforcement Learning Through Modulation of Spike-Timing-Dependent Plasticity.

Nan Zheng Pinaki Mazumder

Published in: IEEE Trans. Computers (2017)

Keyphrases

actor critic
reinforcement learning
temporal difference
policy gradient
optimal control
reinforcement learning algorithms
approximate dynamic programming
neuro fuzzy
function approximation
gradient method
state space
policy iteration
optimal policy
markov decision processes
policy gradient methods
model free
dynamic programming
control problems
monte carlo
reinforcement learning methods
feed forward
multi agent
machine learning
neural network
supervised learning
temporal difference learning