PhiBE: A PDE-based Bellman Equation for Continuous Time Policy Evaluation.

Published in: CoRR (2024)

Keyphrases

policy evaluation
matrix inversion
least squares
monte carlo
reinforcement learning
markov chain
temporal difference
model free
markov decision processes
policy iteration
variance reduction
state space
partial differential equations
function approximation
optimal control
linear program
dynamical systems
optimal policy
optical flow
semi parametric
state action
statistical inference
stochastic processes
partially observable markov decision processes
action selection
infinite horizon
transition probabilities
gaussian process
learning algorithm