A Robust Exploration Strategy in Reinforcement Learning Based on Temporal Difference Error.

Muhammad Shadi Hajar Harsha K. Kalutarage M. Omar Al-Kadri

Published in: AI (2022)

Keyphrases

temporal difference
reinforcement learning
exploration strategy
function approximation
td learning
reinforcement learning algorithms
evaluation function
model free
policy evaluation
function approximators
monte carlo
action selection
state space
policy iteration
machine learning
markov decision processes
markov chain
markov decision problems
action space
optimal policy
supervised learning
partially observable
training set
multi agent