Jamba算是环球上第一款基于Mamba的消费级别的模型。近日AI21 Labs颁布Jamba 1.5系列开明模型,包含Jamba 1.5 Mini和Jamba 1.5 Large,这些模型建设在陈腐的SSM-Transformer架构之上,某种意义上也算是AI技术的打破。
Jamba 1.5翻新的**是其令人印象深入的256K高低文窗口,这是目前最长高低文的开明模型。在单个实例中解决和了解如此少量消息的才干准许在各种义务中成功更粗疏、更片面和更准确的输入。Jamba 1.5 Mini可以在单个GPU上解决高达140K令牌的高低文长度。
AI21 Labs的原话是:“大少数其余模型宣称具有较长的高低文窗口,但无法在其高低文窗口的下限处坚持相反的性能品质,而Jamba 1.5系列在其 256K高低文窗口的整个跨度内坚持其长高低文解决。”
能够有效解决很长的高低文模型关于简直企业级生成式的运行程序都至关关键。除了彻底、准确地总结和剖析简短的文档外,长高低文模型还经过消弭延续分块和重复检索的须要,大大提高了RAG和代理上班流程的品质,并降落了它们的老本。
上图为Jamba 1.5 Mini在2片A100 80GB GPU启动提前评价,而Jamba 1.5 Large则是在8块A100 80GB GPU上成功的,全体体现不错。下图为
上表是Jamba和其余模型全体参数规模和实践运转激活参数规模的对比。Jamba 1.5 Large算是巅峰之作,它只管具有398B的总参数,但是运转时仅仅有94B的生动参数。而Jamba 1.5 Mini具有52B的总参数和12B的生动参数。<MoE!!>
2.SSM-Transformer
Jamba 1.5基于混合SSM-Transformer构建,它联合了两种弱小的AI 范式的长处:Mamba和Transformer。读者能否还记得Mamba系列?!Mamba为模型带来了出色的效率和速度,而Transformer架构则在各种 NLP义务中坚持高品质输入和持重的性能。
在Jamba的这个版本中,AI21实验了Mamba-2,这是Mamba的更快和改良版本,它的性能区分优于Mamba和Transformers。在实验中如上图所示在混合架构中,Mamba-1+Attention组合比Mamba-2+Attention成果更好,因此本次在Jamba-1.5-Large中经常使用Mamba-1。
当然在这个环节中还发现混合架构的性能优于纯Mamba-2。经过推测或者是由于在 Mamba层之间交织有完整的Tranformer层时,Mamba-2相关于Mamba-1 的长处就不那么显著了,Mamba-2只管可以具有更大形态存储才干,但是Mamba-1经过Transformer可以会集来自整个高低文的消息。
上图为最早期的Jamba论文中Jamba Block的架构图。它为八层的架构,Mamba层和Transformer层的比例为7:1,每两层运用了MoE。
而Jamba-1.5-Large遵照相反的Jamba结构,但容量更大。它具有94B优惠参数和398B总参数。它有9个区块,每个区块都有以下规格:
3.ExpertsInt8
Jamba 1.5 Large 面前的关键翻新之一是引入ExpertsInt8,这是一种专为专家混合 (MoE) 模型设计的新型量化技术。这种技术可以在A100 GPU 上经常使用,而FP8仅在H100上可以经常使用。当然这种技术最关键的特点如下:
由于超越85%的模型权重在MoE层中,超越90%在 MoE或MLP层中,那么如何量化这些权重且同时依然享用极速BF16内核的好处?钻研人员将 MoE和MLP权重量化为INT8,将它们保留在INT8中,并在实践计算之前将它们前往BF16。
最关键的是,逆量化步骤间接出当初vLLM的 fused_moe内核外部。经过这种模式,逆量化环节参与的开支可以疏忽不计,甚至造成比BF16更高的提前。这个修正的fused_moe内核目前曾经奉献给vLLM。
上图为不同量化技术比拟,显示1024个令牌高低文和128个令牌解码的端到端提前。ExpertsInt8的性能与FP8相似,但运行起来极速而便捷,并且照旧享用BF16激活,最关键的是能够实用于FP8无法用的A100 GPU。
至于在一些通用基准的评测上,Jamba-1.5也取得不俗的体现。与同级别的模型相比,性能相似但是领有更好的吞吐量和低提前的才干。
本文转载自,作者: