Batch Reinforcement Learning with Hyperparameter Gradients.

Byung-Jun Lee Jongmin Lee Peter Vrancx Dongho Kim Kee-Eung Kim

Published in: ICML (2020)

Keyphrases

reinforcement learning
batch mode
function approximation
markov decision processes
reinforcement learning algorithms
gaussian processes
gaussian process
robotic control
machine learning
model selection
state space
temporal difference
learning algorithm
quality prediction
model free
dynamic programming
batch size
autonomous learning
optimal control
optimal policy
action selection
regression model
markov decision process
control policy
multi agent
hyperparameters
transition model
policy search
incremental learning