Spontaneous Reward Hacking in Iterative Self-Refinement.

Jane Pan He He Samuel R. Bowman Shi Feng

Published in: CoRR (2024)

Keyphrases

reinforcement learning
real time
iterative optimization
multi agent
iterative methods
database
databases
search algorithm
refinement step