Online Learning of Safety function for Markov Decision Processes.

Abhijit Mazumdar Rafal Wisniewski Manuela-Luminita Bujorianu

Published in: ECC (2023)

Keyphrases

markov decision processes
online learning
optimal policy
finite state
state space
policy iteration
reinforcement learning
dynamic programming
transition matrices
decision theoretic planning
reinforcement learning algorithms
infinite horizon
average reward
average cost
decision processes
reachability analysis
partially observable
model based reinforcement learning
state and action spaces
factored mdps
e learning
planning under uncertainty
finite horizon
risk sensitive
semi markov decision processes
reward function
dynamical systems