Supervised Fine-Tuning as Inverse Reinforcement Learning.

Published in: CoRR (2024)

Keyphrases

fine tuning
inverse reinforcement learning
bayesian nonparametric
partially observable environments
preference elicitation
reward function
fine tuned
semi supervised
supervised learning
unsupervised learning
learning algorithm
temporal difference
multi objective
utility function
dynamic systems
markov decision process