Offline RL via Feature-Occupancy Gradient Ascent.

Gergely Neu Nneka Okolo

Published in: CoRR (2024)

Keyphrases

gradient ascent
policy gradient
reinforcement learning
cross entropy
expectation maximization
exponential family
neural network
machine learning
multi agent
feature vectors