Offline Reinforcement Learning Hands-On.

Louis Monier Jakub Kmec Alexandre Laterre Thomas Pierrot Valentin Courgeau Olivier Sigaud Karim Beguir

Published in: CoRR (2020)

Keyphrases

reinforcement learning
function approximation
reinforcement learning algorithms
real time
real life
state space
optimal policy
learning algorithm
temporal difference
machine learning
stochastic approximation
action selection
model free
optimal control
markov decision processes
key concepts
dynamic programming
hidden markov models
evolutionary algorithm
multi agent
temporal difference learning
decision making
world class
direct policy search