Optimising dividends and consumption under an exponential CIR as a discount factor.

Julia Eisenberg Yuliya Mishura

Published in: Math. Methods Oper. Res. (2020)

Keyphrases

discount factor
markov decision processes
optimal policy
learning rate
markov decision problems
partially observable
average reward
infinite horizon
reinforcement learning
state space
finite state
long run
dynamic programming
convergence rate
decision problems
learning algorithm
multistage
policy iteration
dynamical systems
optimal control
sufficient conditions
multi agent
objective function