On Uninformative Optimal Policies in Adaptive LQR with Unknown B-Matrix.

Ingvar Ziemann Henrik Sandberg

Published in: CoRR (2020)

Keyphrases

optimal policy
markov decision processes
decision problems
dynamic programming
finite horizon
reinforcement learning
state space
long run
infinite horizon
finite state
dynamic programming algorithms
average reward
serial inventory systems
optimal control
state dependent
multistage
average cost
initial state
markov decision process
policy iteration
expected cost
linear programming
semi markov decision processes
average reward reinforcement learning
partially observable markov decision processes
computational complexity
data mining