Online Reinforcement Learning in Periodic MDP.

Ayush Aniket Arpan Chattopadhyay

Published in: CoRR (2023)

Keyphrases

reinforcement learning
markov decision processes
optimal policy
markov decision process
state space
online learning
function approximation
partially observable
reward function
action space
reinforcement learning algorithms
state and action spaces
dynamic programming
real time
learning algorithm
policy search
multi agent
machine learning
action sets
approximate dynamic programming
bayesian reinforcement learning
average reward
policy iteration
temporal difference
learning process
website
state abstraction
linear program