Small batch deep reinforcement learning.

Johan S. Obando-Ceron Marc G. Bellemare Pablo Samuel Castro

Published in: NeurIPS (2023)

Keyphrases

reinforcement learning
markov decision processes
function approximation
state space
optimal policy
optimal control
temporal difference
databases
neural network
real world
e learning
dynamic programming
dynamical systems
learning problems
medium size