Adversarial Policy Optimization in Deep Reinforcement Learning.

Md. Masudur Rahman Yexiang Xue

Published in: CoRR (2023)

Keyphrases

reinforcement learning
optimal policy
markov decision process
policy search
action selection
multi agent
actor critic
function approximators
optimization algorithm
reinforcement learning algorithms
global optimization
state and action spaces
reward function
combinatorial optimization
optimization problems
learning algorithm
markov decision processes
policy iteration
state space
temporal difference
optimization method
action space
policy making
dynamic programming
neural network