Shaping Proto-Value Functions via Rewards.

Chandrashekar Lakshmi Narayanan Raj Kumar Maity Shalabh Bhatnagar

Published in: CoRR (2015)

Keyphrases

reward shaping
reinforcement learning
complex domains
multiarmed bandit
markov decision processes
long term and short term
reinforcement learning algorithms
reward function
data sets
data structure
markov decision problems
multi armed bandits