Sample 长序列 Packing 疑问及优化 训练的 LLM Attention

Sample 长序列 Packing 疑问及优化 训练的 LLM Attention

一、背景之前看过局部Megatron,LM的源码,也详细剖析过对应的&gt,SamplePacking中有很多可以探讨的技术点,比如Attention的成功和优化,Sample的组合及负载平衡疑问,有点相似调度疑问,以及不同打算对成......
萌子哥 11-14
864 381 421