Three Years, Two Papers, One Course Off: Optimal Nonmonetary Reward Policies.

Shivam Gupta Wei Chen Milind Dawande Ganesh Janakiraman

Published in: Manag. Sci. (2023)

Keyphrases

control policy
special issue
optimal solution
optimal policy
expected reward
reinforcement learning
average reward
control policies
total reward
artificial intelligence
dynamic programming
reward function
asymptotically optimal
special section
bandit problems
discounted reward