A Normative Account of Confirmation Bias During Reinforcement Learning.

Germain Lefebvre Christopher Summerfield Rafal Bogacz

Published in: Neural Comput. (2022)

Keyphrases

reinforcement learning
function approximation
state space
multi agent
model free
trade off
reinforcement learning algorithms
action selection
markov decision processes
temporal difference
optimal policy
multi agent systems
temporal difference learning
real robot
markov decision process
databases
multi agent reinforcement learning
monte carlo
semi supervised
cooperative
feature selection
learning algorithm
machine learning