learning with policy prediction in continuous state-action multi-agent decision processes.

Farzaneh Ghorbani Mohsen Afsharchi Vali Derhami

Published in: Soft Comput. (2020)

Keyphrases

decision processes
state action
reinforcement learning
multi agent
evaluation function
action space
stochastic games
learning algorithm
policy gradient
active learning
state space
optimal policy
learning tasks
bayesian networks
markov decision processes
decision process