Optimal distributions of rewards for a two-armed slot machine.

Zengjing Chen Xinwei Feng Shuhui Liu Xiaodong Yan

Published in: Neurocomputing (2023)

Keyphrases

dynamic programming
reinforcement learning
optimal solution
worst case
markov decision processes
optimal design
flowshop
real time
objective function
random variables
closed form
power law
batch processing