DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models.

Boxin Wang Weixin Chen Hengzhi Pei Chulin Xie Mintong Kang Chenhui Zhang Chejian Xu Zidi Xiong Ritik Dutta Rylan Schaeffer Sang T. Truong Simran Arora Mantas Mazeika Dan Hendrycks Zinan Lin Yu Cheng Sanmi Koyejo Dawn Song Bo Li

Published in: CoRR (2023)

Keyphrases