Communicating via Markov Decision Processes.

Samuel Sokota Christian A. Schröder de Witt Maximilian Igl Luisa M. Zintgraf Philip H. S. Torr Martin Strohmeier J. Zico Kolter Shimon Whiteson Jakob N. Foerster

Published in: ICML (2022)

Keyphrases

markov decision processes
state space
optimal policy
finite state
dynamic programming
reinforcement learning
policy iteration
transition matrices
infinite horizon
finite horizon
reachability analysis
factored mdps
risk sensitive
decision theoretic planning
planning under uncertainty
average cost
reinforcement learning algorithms
average reward
markov decision process
machine learning
partially observable
multistage
model based reinforcement learning
action space
decision processes
reward function
linear programming
decision making