Exponential TD Learning: A Risk-Sensitive Actor-Critic Reinforcement Learning Algorithm.

Erfaun Noorani Christos N. Mavridis John S. Baras

Published in: ACC (2023)

Keyphrases

temporal difference
reinforcement learning
function approximation
model free
evaluation function
optimal control
reinforcement learning algorithms
step size
average reward
monte carlo
policy gradient
action selection
markov decision processes
policy iteration
markov decision problems
neural network
real valued
linear program
long run
supervised learning