Stratified Experience Replay: Correcting Multiplicity Bias in Off-Policy Reinforcement Learning.

Brett Daley Cameron Hickert Christopher Amato

Published in: AAMAS (2021)

Keyphrases

reinforcement learning
markov decision processes
function approximation
state space
robotic control
information systems
learning algorithm
learning problems
model free
multi agent reinforcement learning
decision making
artificial neural networks
user interface
dynamic programming
machine learning
optimal policy
genetic algorithm
optimal control
personal experiences
information retrieval