Inverse Policy Evaluation for Value-based Sequential Decision-making.

Alan Chan Kristopher De Asis Richard S. Sutton

Published in: CoRR (2020)

Keyphrases

sequential decision making
policy evaluation
temporal difference
reinforcement learning
matrix inversion
function approximation
model free
monte carlo
evaluation function
policy iteration
reinforcement learning algorithms
state space
action selection
supervised learning
markov decision processes
least squares
step size
machine learning
decision problems
transfer learning
dynamic programming
lower bound
learning algorithm