Optimal learning of transition probabilities in the two-agent newsvendor problem.

Ilya O. Ryzhov Martin R. Valdez-Vivas Warren B. Powell

Published in: WSC (2010)

Keyphrases

transition probabilities
markov chain
learning algorithm
reinforcement learning
prior knowledge
active learning
machine learning
optimal solution
supervised learning
text mining
em algorithm
hidden variables
reward function