Preprocessing Reward Functions for Interpretability.

Erik Jenner Adam Gleave

Published in: CoRR (2022)

Keyphrases

reward function
preprocessing
markov decision processes
reinforcement learning
state space
inverse reinforcement learning
reinforcement learning algorithms
multiple agents
optimal policy
transition probabilities
state variables
policy search
simple examples
feature extraction
transition model
initially unknown
statistical model
linear programming
markov decision process
markov decision problems
dynamical systems
state action
dynamic programming
multi agent
learning algorithm