Fast Probabilistic Policy Reuse via Reward Function Fitting.

Jinmei Liu Zhi Wang Chunlin Chen

Published in: IJCNN (2022)

Keyphrases

reward function
inverse reinforcement learning
optimal policy
markov decision processes
generative model
state space
reinforcement learning
reinforcement learning algorithms
partially observable
markov decision process
policy search
probabilistic model
multiple agents
control policies
transition probabilities
hierarchical reinforcement learning
state variables
bayesian networks
initially unknown
decision problems
average reward
state action
markov decision problems
machine learning
maximum likelihood
dynamic programming
optimal solution