Publication: Modular production control using deep reinforcement learning: proximal policy optimization.