Defining and Characterizing Reward Hacking.

Joar Skalse Nikolaus H. R. Howe Dmitrii Krasheninnikov David Krueger

Published in: CoRR (2022)

Keyphrases

reinforcement learning
security threats
data structure
lower bound
image processing
mobile robot
user defined
bandit problems