Least absolute policy iteration for robust value function approximation.

Masashi Sugiyama Hirotaka Hachiya Hisashi Kashima Tetsuro Morimura

Published in: ICRA (2009)

Keyphrases

policy iteration
markov decision processes
approximate dynamic programming
temporal difference
reinforcement learning
model free
optimal policy
fixed point
sample path
least squares
markov decision process
policy evaluation
temporal difference learning
decision making
function approximation
basis functions
linear programming
state space
neural network
linear program
average cost
monte carlo
search space
discounted reward