REValueD: Regularised Ensemble Value-Decomposition for Factorisable Markov Decision Processes.

David Ireland Giovanni Montana

Published in: CoRR (2024)

Keyphrases

markov decision processes
state space
finite state
optimal policy
reinforcement learning
dynamic programming
reachability analysis
policy iteration
transition matrices
planning under uncertainty
partially observable
decision processes
average cost
finite horizon
action space
factored mdps
model based reinforcement learning
decision theoretic planning
risk sensitive
infinite horizon
average reward
reinforcement learning algorithms
markov decision process
state and action spaces
action sets
stochastic shortest path