Approximate discounting-free policy evaluation from transient and recurrent states.

Vektor Dewanto Marcus Gallagher

Published in: CoRR (2022)

Keyphrases

policy evaluation
least squares
monte carlo
temporal difference
reinforcement learning
model free
policy iteration
variance reduction
markov decision processes
markov decision problems
function approximation
semi parametric
steady state
optimal policy
step size
gaussian process
statistical inference
initial state
action selection
state transitions
policy gradient
decision making
partially observable markov decision processes
importance sampling
state space
finite state
evaluation function
belief revision
fixed point
markov chain