Counterexamples for Expected Rewards.

Tim Quatmann Nils Jansen Christian Dehnert Ralf Wimmer Erika Ábrahám Joost-Pieter Katoen Bernd Becker

Published in: FM (2015)

Keyphrases

reinforcement learning
markov decision processes
multiarmed bandit
data sets
neural network
computer vision
image processing
information technology