Belief Projection-Based Reinforcement Learning for Environments with Delayed Feedback.

Jangwon Kim Hangyeol Kim Jiwook Kang Jongchan Baek Soohee Han

Published in: NeurIPS (2023)

Keyphrases

reinforcement learning
delayed feedback
learning algorithm
dynamic environments
computationally efficient
function approximation
machine learning
multi agent
robotic control
multi agent environments
model free
neural network
markov decision process
markov decision processes
dynamic programming
database
monte carlo
multi agent reinforcement learning
policy search
optimal policy