Bringing Fairness to Actor-Critic Reinforcement Learning for Network Utility Optimization.

Jingdi Chen Yimeng Wang Tian Lan

Published in: INFOCOM (2021)

Keyphrases

actor critic
reinforcement learning
temporal difference
function approximation
approximate dynamic programming
policy gradient
reinforcement learning algorithms
optimal control
gradient method
neuro fuzzy
natural actor critic
optimization problems
multi agent
dynamic programming
state space
temporal difference learning
machine learning
np hard
optimization method
monte carlo
model free
optimization algorithm
markov decision processes
policy iteration
average reward
utility function
optimization methods