Detecting Rewards Deterioration in Episodic Reinforcement Learning.

Ido Greenberg Shie Mannor

Published in: ICML (2021)

Keyphrases

reinforcement learning
markov decision processes
function approximation
state space
model free
multi agent
dynamic programming
reward shaping
transfer learning
optimal policy
supervised learning
reinforcement learning algorithms
data sets
infinite horizon
temporal difference
policy iteration
temporal difference learning
reinforcement learning methods
multi agent reinforcement learning
learning process