Actor-Critic Deep Reinforcement Learning for Dynamic Multichannel Access.

Chen Zhong Ziyang Lu Mustafa Cenk Gursoy Senem Velipasalar

Published in: CoRR (2018)

Keyphrases

actor critic
reinforcement learning
temporal difference
approximate dynamic programming
reinforcement learning algorithms
policy gradient
function approximation
dynamic environments
optimal control
learning algorithm
policy iteration
neuro fuzzy
action selection
state space
dynamic programming
optimal policy
average reward
gradient method
markov decision processes
control problems
single agent
linear programming
multi agent
natural actor critic
policy gradient methods