Optimal Policies for Sequential Bernoulli Experiments with Switching Costs.

Harald Benzing Dieter Kalin Radu Theodorescu

Published in: J. Inf. Process. Cybern. (1987)

Keyphrases

optimal policy
switching costs
markov decision processes
decision problems
state space
dynamic programming
infinite horizon
reinforcement learning
multistage
average reward
finite horizon
long run
finite state
prior studies
state dependent
dynamic programming algorithms
markov decision process
average reward reinforcement learning
policy iteration
individual level
online services
sufficient conditions
serial inventory systems
initial state
network effects
machine learning
decision making