Efficient Trust Region-Based Safe Reinforcement Learning with Low-Bias Distributional Actor-Critic.

Dohyeong Kim Kyungjae Lee Songhwai Oh

Published in: CoRR (2023)

Keyphrases

reinforcement learning
actor critic
temporal difference
function approximation
optimal control
policy gradient
reinforcement learning algorithms
multi agent
approximate dynamic programming
machine learning
state space
dynamic programming
optimal policy
transfer learning
evaluation function
function approximators