Online Merging Optimizers for Boosting Rewards and Mitigating Tax in Alignment.

Keming Lu Bowen Yu Fei Huang Yang Fan Runji Lin Chang Zhou

Published in: CoRR (2024)

Keyphrases

online learning
long term and short term
real time
data sets
reinforcement learning
genetic algorithm
learning algorithm
feature selection
website
decision trees
training data
dynamic programming
online algorithms