Policy Gradient for Reinforcement Learning with General Utilities.

Navdeep Kumar Kaixin Wang Kfir Levy Shie Mannor

Published in: CoRR (2022)

Keyphrases

reinforcement learning
policy gradient
actor critic
reinforcement learning algorithms
policy search
function approximation
multi agent
optimal control
state space
control problems
optimal policy
markov decision processes
partially observable markov decision processes