Solving Multi-Model MDPs by Coordinate Ascent and Dynamic Programming.

Xihong Su Marek Petrik

Published in: CoRR (2024)

Keyphrases

dynamic programming
markov decision processes
objective function
coordinate ascent
reinforcement learning
input data
decision theoretic