Piotr Stanczyk

Publication Activity (10 Years)

Years Active: 2010-2024
Publications (10 Years): 13

Top Topics

Reinforcement Learning

Machine Learning

Partially Observable Domains

Top Venues

Publications

Rishabh Agarwal, Nino Vieillard, Yongchao Zhou, Piotr Stanczyk, Sabela Ramos Garea, Matthieu Geist, Olivier Bachem
On-Policy Distillation of Language Models: Learning from Self-Generated Mistakes. ICLR (2024)
Pier Giuseppe Sessa, Robert Dadashi, Léonard Hussenot, Johan Ferret, Nino Vieillard, Alexandre Ramé, Bobak Shahriari, Sarah Perrin, Abe Friesen, Geoffrey Cideron, Sertan Girgin, Piotr Stanczyk, Andrea Michi, Danila Sinopalnikov, Sabela Ramos, Amélie Héliou, Aliaksei Severyn, Matt Hoffman, Nikola Momchev, Olivier Bachem
BOND: Aligning LLMs with Best-of-N Distillation. CoRR (2024)
Rishabh Agarwal, Nino Vieillard, Piotr Stanczyk, Sabela Ramos, Matthieu Geist, Olivier Bachem
GKD: Generalized Knowledge Distillation for Auto-regressive Sequence Models. CoRR (2023)
Paul Roit, Johan Ferret, Lior Shani, Roee Aharoni, Geoffrey Cideron, Robert Dadashi, Matthieu Geist, Sertan Girgin, Léonard Hussenot, Orgad Keller, Nikola Momchev, Sabela Ramos, Piotr Stanczyk, Nino Vieillard, Olivier Bachem, Gal Elidan, Avinatan Hassidim, Olivier Pietquin, Idan Szpektor
Factually Consistent Summarization via Reinforcement Learning with Textual Entailment Feedback. CoRR (2023)
Paul Roit, Johan Ferret, Lior Shani, Roee Aharoni, Geoffrey Cideron, Robert Dadashi, Matthieu Geist, Sertan Girgin, Léonard Hussenot, Orgad Keller, Nikola Momchev, Sabela Ramos Garea, Piotr Stanczyk, Nino Vieillard, Olivier Bachem, Gal Elidan, Avinatan Hassidim, Olivier Pietquin, Idan Szpektor
Factually Consistent Summarization via Reinforcement Learning with Textual Entailment Feedback. ACL (1) (2023)
Fan Yang, Gabriel Barth-Maron, Piotr Stanczyk, Matthew W. Hoffman, Siqi Liu, Manuel Kroiss, Aedan Pope, Alban Rrustemi
Launchpad: A Programming Model for Distributed Machine Learning Research. CoRR (2021)
Sabela Ramos, Sertan Girgin, Léonard Hussenot, Damien Vincent, Hanna Yakubovich, Daniel Toyama, Anita Gergely, Piotr Stanczyk, Raphaël Marinier, Jeremiah Harmsen, Olivier Pietquin, Nikola Momchev
RLDS: an Ecosystem to Generate, Share and Use Datasets in Reinforcement Learning. CoRR (2021)
Marcin Andrychowicz, Anton Raichuk, Piotr Stanczyk, Manu Orsini, Sertan Girgin, Raphaël Marinier, Léonard Hussenot, Matthieu Geist, Olivier Pietquin, Marcin Michalski, Sylvain Gelly, Olivier Bachem
What Matters for On-Policy Deep Actor-Critic Methods? A Large-Scale Study. ICLR (2021)
Marcin Andrychowicz, Anton Raichuk, Piotr Stanczyk, Manu Orsini, Sertan Girgin, Raphaël Marinier, Léonard Hussenot, Matthieu Geist, Olivier Pietquin, Marcin Michalski, Sylvain Gelly, Olivier Bachem
What Matters In On-Policy Reinforcement Learning? A Large-Scale Empirical Study. CoRR (2020)
Lasse Espeholt, Raphaël Marinier, Piotr Stanczyk, Ke Wang, Marcin Michalski
SEED RL: Scalable and Efficient Deep-RL with Accelerated Central Inference. ICLR (2020)
Karol Kurach, Anton Raichuk, Piotr Stanczyk, Michal Zajac, Olivier Bachem, Lasse Espeholt, Carlos Riquelme, Damien Vincent, Marcin Michalski, Olivier Bousquet, Sylvain Gelly
Google Research Football: A Novel Reinforcement Learning Environment. AAAI (2020)
Lasse Espeholt, Raphaël Marinier, Piotr Stanczyk, Ke Wang, Marcin Michalski
SEED RL: Scalable and Efficient Deep-RL with Accelerated Central Inference. CoRR (2019)
Karol Kurach, Anton Raichuk, Piotr Stanczyk, Michal Zajac, Olivier Bachem, Lasse Espeholt, Carlos Riquelme, Damien Vincent, Marcin Michalski, Olivier Bousquet, Sylvain Gelly
Google Research Football: A Novel Reinforcement Learning Environment. CoRR (2019)
Krzysztof Diks, Piotr Stanczyk
) Time. SOFSEM (2010)