Adaptively Calibrated Critic Estimates for Deep Reinforcement Learning.

Nicolai Dorka Joschka Boedecker Wolfram Burgard

Published in: CoRR (2021)

Keyphrases

reinforcement learning
function approximation
temporal difference
reinforcement learning algorithms
actor critic
policy gradient
state space
model free
learning algorithm
dynamic programming
learning process
temporal difference learning
natural actor critic
importance sampling
markov decision processes
transition model
policy search
confidence intervals
markov decision process
optimal control
real valued
approximate dynamic programming
joint estimation
robotic control
multi view