ISAACS: Iterative Soft Adversarial Actor-Critic for Safety.

Kai-Chieh Hsu Duy Phuong Nguyen Jaime Fernández Fisac

Published in: CoRR (2022)

Keyphrases

actor critic
reinforcement learning
policy gradient
approximate dynamic programming
optimal control
temporal difference
neuro fuzzy
gradient method
reinforcement learning algorithms
multi agent
machine learning
function approximation
decision making
optimal solution
dynamic programming
neural network
importance sampling
policy iteration
average reward