Self-Supervised Reinforcement Learning for Out-of-Distribution Recovery via Auxiliary Reward.

Yufeng Xie Yinan Wang Han Wang Qingshan Li

Published in: ICASSP (2024)

Keyphrases

reinforcement learning
function approximation
eligibility traces
state space
reinforcement learning algorithms
markov decision processes
learning algorithm
neural network
spatial distribution
optimal control
mobile robot
machine learning
optimal policy
partially observable environments
data sets
function approximators
learning capabilities
multi agent
gaussian distribution
action selection
temporal difference
reward function
uniformly distributed
partially observable
error detection
probability distribution
state action
initially unknown
least squares
supervised learning