Online Convex Optimization in Adversarial Markov Decision Processes.

Aviv Rosenberg Yishay Mansour

Published in: ICML (2019)

Keyphrases

markov decision processes
online convex optimization
long run
online learning
optimal policy
finite state
reinforcement learning
convex optimization
state space
newton method
transition matrices
policy iteration
efficient algorithms for solving
dynamic programming
infinite horizon
reinforcement learning algorithms
multi agent
markov decision process
average cost
average reward
decision theoretic planning
regret bounds
lower bound
support vector