Diffusion Reward: Learning Rewards via Conditional Video Diffusion.

Tao Huang Guangqi Jiang Yanjie Ze Huazhe Xu

Published in: CoRR (2023)

Keyphrases

reinforcement learning
learning process
real time
learning algorithm
learning systems
active learning
bandit problems
prior knowledge
online learning
neural network
bayesian networks
learning environment
video sequences
supervised learning
diffusion process
multi armed bandits