Preference as Reward, Maximum Preference Optimization with Importance Sampling.

Zaifan Jiang Xing Huang Chao Wei

Published in: CoRR (2023)

Keyphrases

importance sampling
monte carlo
reinforcement learning
markov chain
particle filter
genetic algorithm
image sequences
kalman filter
visual tracking
noise level
approximate inference