Off-Policy Actor-critic for Recommender Systems.

Minmin Chen Can Xu Vince Gatto Devanshu Jain Aviral Kumar Ed H. Chi

Published in: RecSys (2022)

Keyphrases

recommender systems
actor critic
reinforcement learning
optimal control
approximate dynamic programming
policy gradient
gradient method
temporal difference
collaborative filtering
neuro fuzzy
reinforcement learning algorithms
function approximation
policy iteration
matrix factorization
linear program
dynamic programming
evaluation function
average reward
belief revision