P2BPO: Permeable Penalty Barrier-Based Policy Optimization for Safe RL.

Sumanta Dey Pallab Dasgupta Soumyajit Dey

Published in: AAAI (2024)

Keyphrases

reinforcement learning
optimal policy
global optimization
optimization algorithm
business process
action selection
optimization process
optimization problems
machine learning
optimization method
social capital
markov decision process
control policy
learning algorithm
policy gradient
policy search
model free reinforcement learning
partially observable domains
reinforcement learning algorithms
infinite horizon
function approximation
decision problems
business processes