Approximate Q-learning and SARSA(0) under the ε-greedy Policy: a Differential Inclusion Analysis.

Aditya Gopalan Gugan Thoppe

Published in: CoRR (2022)

Keyphrases

action selection
reinforcement learning
statistical analysis
cooperative
search algorithm
image analysis
dynamic programming
function approximation
multi agent
optimal policy
monte carlo
temporal difference