The Reward-Penalty-Selection Problem.

Till Heller Sven O. Krumke Karl-Heinz Küfer

Published in: CoRR (2021)

Keyphrases

reinforcement learning
long run
objective function
penalty function
data sets
hidden markov models
average reward
penalty term