Efficiently Training 7B LLM with 1 Million Sequence Length on 8 GPUs.

Pinxue Zhao Hailin Zhang Fangcheng Fu Xiaonan Nie Qibin Liu Fang Yang Yuanbo Peng Dian Jiao Shuaipeng Li Jinbao Xue Yangyu Tao Bin Cui

Published in: CoRR (2024)

Keyphrases