Learning General Optimal Policies with Graph Neural Networks: Expressive Power, Transparency, and Limits.

Simon Ståhlberg Blai Bonet Hector Geffner

Published in: CoRR (2021)

Keyphrases

expressive power
optimal policy
reinforcement learning
first order logic
learning algorithm
transitive closure
query language
special case
relational algebra
average reward reinforcement learning
state space
dynamic programming
markov decision processes
long run
finite horizon
relational calculus
serial inventory systems
dynamic programming algorithms
data complexity
database systems