GEP-PG: Decoupling Exploration and Exploitation in Deep Reinforcement Learning Algorithms.

Cédric Colas Olivier Sigaud Pierre-Yves Oudeyer

Published in: JFPDA (2018)

Keyphrases

reinforcement learning algorithms
reinforcement learning
state space
model free
markov decision processes
gene expression programming
reinforcement learning problems
eligibility traces
reinforcement learning methods
temporal difference
learning algorithm
reward function
function approximation
markov chain
partially observable environments
action selection
dynamic environments
policy search
hidden markov models
genetic programming
support vector machine
neural network
tabula rasa