Addressing the Long-term Impact of ML Decisions via Policy Regret.

David Lindner Hoda Heidari Andreas Krause

Published in: CoRR (2021)

Keyphrases

long term
short term
decision process
decision making
optimal policy
online learning
maximum likelihood
lower bound
decision processes
multi armed bandit problems
strategic decisions
loss function
decision makers
markov chain
decision model
worst case
confidence bounds
e learning