Safe Wasserstein Constrained Deep Q-Learning.

Aaron Kandel Scott J. Moura

Published in: CoRR (2020)

Keyphrases

reinforcement learning
cooperative
state space
learning algorithm
multi agent
pointwise
optimal policy
function approximation
learning rate
reinforcement learning algorithms
deep learning
temporal difference learning
dynamic programming
model free
multi agent reinforcement learning