Temporal Difference Learning for High-Dimensional PIDEs with Jumps.

Liwei Lu Hailong Guo Xu Yang Yi Zhu

Published in: CoRR (2023)

Keyphrases

temporal difference learning
high dimensional
function approximation
fixed point
reinforcement learning
game playing
evaluation function
temporal difference
markov chain
approximate value iteration
reinforcement learning algorithms
markov decision process
data points
monte carlo
policy iteration
e learning