Online Convex Optimization in Adversarial Markov Decision Processes.

Aviv Rosenberg Yishay Mansour

Published in: CoRR (2019)

Keyphrases

markov decision processes
online convex optimization
long run
optimal policy
online learning
finite state
convex optimization
reinforcement learning
dynamic programming
policy iteration
state space
newton method
transition matrices
markov decision process
decision theoretic planning
efficient algorithms for solving
average cost
reinforcement learning algorithms
action space
average reward
cost function
multi agent
least squares
feature selection
infinite horizon