Online Model-Free Safety Verification for Markov Decision Processes Without Safety Violation.

Abhijit Mazumdar Rafal Wisniewski Manuela-Luminita Bujorianu

Published in: ECC (2024)

Keyphrases

markov decision processes
model free
policy iteration
reinforcement learning
reinforcement learning algorithms
risk sensitive
average reward
policy evaluation
optimal policy
function approximation
transition matrices
finite state
state space
infinite horizon
temporal difference
reachability analysis
decision theoretic planning
partially observable
action space
average cost
least squares
markov decision process
planning under uncertainty
data mining
fixed point
action sets
model based reinforcement learning
learning algorithm