Mean-variance Based Risk-sensitive Reinforcement Learning with Interpretable Attention.

Woo Kyung Kim Youngseok Lee Honguk Woo

Published in: ICMVA (2022)

Keyphrases

risk sensitive
optimal control
reinforcement learning
model free
utility function
markov decision processes
reinforcement learning algorithms
markov decision problems
control policies
dynamic programming
optimal policy
function approximation
state space
decision makers
control strategy
policy iteration
machine learning
markov decision chains
infinite horizon
probability distribution
learning algorithm
markov decision process
temporal difference
action space
optimality criterion
multi agent