High-Value Prioritized Experience Replay for Off-Policy Reinforcement Learning.

Xi Cao Huaiyu Wan Youfang Lin Sheng Han

Published in: ICTAI (2019)

Keyphrases

reinforcement learning
multi agent
state space
learning algorithm
user experience
machine learning
optimal policy
function approximation
reinforcement learning algorithms
real time
case study
wide range
high precision
markov decision processes
model free
temporal difference