Actor-Critic Policy Optimization in Partially Observable Multiagent Environments.

Sriram Srinivasan Marc Lanctot Vinícius Flores Zambaldi Julien Pérolat Karl Tuyls Rémi Munos Michael Bowling

Published in: CoRR (2018)

Keyphrases

partially observable
actor critic
reinforcement learning
markov decision processes
policy iteration
infinite horizon
partially observable markov decision processes
state space
policy gradient
dynamical systems
markov decision problems
decision problems
optimal control
reinforcement learning algorithms
approximate dynamic programming
reward function
average reward
optimal policy
temporal difference
learning agent
optimization problems
neuro fuzzy
function approximation
learning algorithm
dynamic programming
multi agent
markov decision process
model free
action space