Learning domain structure through probabilistic policy reuse in reinforcement learning.

Fernando Fernández Manuela M. Veloso

Published in: Prog. Artif. Intell. (2013)

Keyphrases

reinforcement learning
learning process
learning algorithm
temporal difference
actor critic
supervised learning
learned knowledge
action selection
temporal difference learning
function approximators
optimal policy
partially observable
function approximation
complex domains
domain independent
learning systems
online learning
probabilistic model
learning problems
markov decision processes
collaborative learning
domain specific
reinforcement learning methods
bayes net
policy search
eligibility traces
partially observable environments