A Policy Gradient Algorithm for the Risk-Sensitive Exponential Cost MDP.

Mehrdad Moharrami Yashaswini Murthy Arghyadip Roy Rayadurgam Srikant

Published in: CoRR (2022)

Keyphrases

np hard
optimal solution
computational complexity
risk sensitive
objective function
dynamic programming
linear programming
mathematical model
optimality criterion
learning algorithm
search space
average reward