Model-Free Robust φ-Divergence Reinforcement Learning Using Both Offline and Online Data.

Kishan Panaganti Adam Wierman Eric Mazumdar

Published in: CoRR (2024)

Keyphrases

model free
reinforcement learning
data sets
small number
function approximation
e learning
markov decision processes
reinforcement learning algorithms
high dimensional
learning process
data points
learning experience
temporal difference