Learning a Diffusion Model Policy from Rewards via Q-Score Matching.

Michael Psenka Alejandro Escontrela Pieter Abbeel Yi Ma

Published in: CoRR (2023)

Keyphrases

diffusion model
reinforcement learning
learning process
supervised learning
learning algorithm
computer vision
high quality
matching score