Technical Note Q-Learning.

Christopher J. C. H. Watkins Peter Dayan

Published in: Mach. Learn. (1992)

Keyphrases

reinforcement learning
function approximation
state space
multi agent
cooperative
stochastic approximation
learning rate
learning algorithm
multi agent reinforcement learning
temporal difference learning
reinforcement learning algorithms
action selection
bucket brigade
model free
optimal policy
dynamic programming
policy iteration
evolutionary algorithm
potential field
data sets
optimal control
radial basis function
sufficient conditions
markov chain
state action
information retrieval
hierarchical reinforcement learning