Phi-3 Safety Post-Training: Aligning Language Models with a "Break-Fix" Cycle.

Emman Haider Daniel Perez-Becker Thomas Portet Piyush Madan Amit Garg David Majercak Wen Wen Dongwoo Kim Ziyi Yang Jianwen Zhang Hiteshi Sharma Blake Bullwinkel Martin Pouliot Amanda Minnich Shiven Chawla Solianna Herrera Shahed Warreth Maggie Engler Gary Lopez Nina Chikanov Raja Sekhar Rao Dheekonda Bolor-Erdene Jagdagdorj Roman Lutz Richard Lundeen Tori Westerhoff Pete Bryan Christian Seifert Ram Shankar Siva Kumar Andrew Berkley Alex Kessler

Published in: CoRR (2024)