Constrained Reinforcement Learning with Average Reward Objective: Model-Based and Model-Free Algorithms.

Vaneet Aggarwal Washim Uddin Mondal Qinbo Bai

Published in: CoRR (2024)

Keyphrases

model free
reinforcement learning
average reward
policy iteration
function approximation
reinforcement learning algorithms
temporal difference
rl algorithms
policy evaluation
reinforcement learning methods
optimality criterion
discounted reward
hierarchical reinforcement learning
markov decision processes
optimal policy
state space
policy gradient
machine learning
neural network
multi agent
actor critic