Concave Utility Reinforcement Learning with Zero-Constraint Violations.

Mridul Agarwal Qinbo Bai Vaneet Aggarwal

Published in: Trans. Mach. Learn. Res. (2022)

Keyphrases

constraint violations
reinforcement learning
hard constraints
temporal constraints
soft constraints
objective function
utility function
learning algorithm
multiple criteria
machine learning
optimal policy
state space
search space
constraint satisfaction problems
higher order
temporal reasoning
image processing