Active Learning of Markov Decision Processes using Baum-Welch algorithm.

Giovanni Bacci Anna Ingólfsdóttir Kim G. Larsen Raphaël Reynouard

Published in: ICMLA (2021)

Keyphrases

markov decision processes
dynamic programming
learning algorithm
active learning
objective function
optimal solution
computational complexity
state space
np hard
hidden markov models
average reward
k means
model based reinforcement learning
search space
factored mdps
neural network
evolutionary algorithm
pairwise
expectation maximization
optimal policy
reinforcement learning
convergence rate
genetic algorithm
action sets