企业宣传,产品推广,广告招商,广告投放联系seowdb

Nemotron

1. 最强开源模型要易主了?

2天前,英伟达颁布了其最弱小言语模型 Nemotron-4 340B模型家族,包括 Nemotron-4-340B-Base、Nemotron-4-340B-Instruct 和 Nemotron-4-340B-Reward。

一切的模型都是基于NVIDIA的开源模型容许协定,准许用户自在散发、修正和经常使用模型及其输入。并且可以在8块H100的单机上以FP8精度运转。

1.1 智能化测评

在 Nemotron-4-340B-Instruct 的智能基准测试评价中,区分与开源(如 MetaAI 的 Llama-3-70B-Instruct、Mistral-AI-Team 的 Mixtral-8x22B-Instruct-v0.1 和 Qwen-Team 的 Qwen-2-72B-Instruct)及闭源模型(包括OpenAI的 GPT-4-1106-preview、MistralAI-Team 的 Mistral Large 和 Anthropic 的 Claude-3-Sonnet)启动了对比。

评价了包括单轮对话(AlpacaEval 2.0 LC 和 Arena Hard)、多轮对话(MT-Bench 的修正版,分数较原版本平均低 0.8 分,修正答案详见 GitHub 链接)、聚合基准(MMLU)、数学(GSM8K)、编程(HumanEval 和 MBPP 的 Pass@1 分数)、指令遵照(IFEval)和主题遵照(TFEval)等多个义务。

如上图所示,Nemotron-4-340B-Instruct 在零样本评价中表现出色,这反映了模型在不经常使用样例时遵照指令的才干,更贴近人类与大型言语模型的实践互动。在多个测试数据集上都逾越了GPT4成为了最强模型。

1.2 人类标注

在接上去的人类标注测试中,组织了一支阅历丰盛的标注团队,对模型启动了人工评价。

测试集包括136个精心分类的疑问,涵盖10种不同的义务类型,并采用6点李克特量表来评定回答的质量。该量表不只包括五个质量等级,还特意参与了一个等级,用于评价模型在彻底未遵照指令时的表现。标注准绳围绕两个**维度:协助性(helpfulness)和实在性(truthfulness)。

如上图所示,除了消息抽取和重写义务外,Nemotron-4-340B-Instruct 的表现与 GPT-4-1106-preview 相当甚至更优,尤其在多轮对话义务上表现突出。全体来看,模型在评价集中的输赢/平局比为 28.19%:46.57%:25.24%。

至于人类评价中的无所谓目的,标注者对回答长度的感知在上表有所表现。结果显示,与 GPT-4-1106-preview 相比,标注者以为 Nemotron-4-340B-Instruct 的回答长度更适宜(79.41% 对 74.02%),这关键得益于其较少的简短回答(20.10% 对 25.74%)。

为什么Nemotron-4这么强?

2.1 训练数据集构成

预训练数据集由三种不同数据类型组成:英语人造言语数据占比70%,多语种人造言语数据占比15%,以及源代码数据雷同占比15%。英语语料库涵盖了网络文档、资讯稿件、迷信论文、书籍等多样起源和畛域的精选文档。多语种数据笼罩了53种言语,包括单语种敌对行语料库中的文档;代码数据集则囊括了43种编程言语。

在这组数据上累计训练了9万亿个token, 前8万亿token属于正式预训练阶段,然后1万亿token则在二次训练阶段成功 。关于训练语料库的详细构成和筹划流程,Nemotron-4-340B-Base 与 Nemotron-4-15B-Base 采用了相反的数据混合比例。

2.2 架构细节解析

Nemotron-4-340B-Base 在架构上与 Nemotron-4-15B-Base 坚持分歧,采用规范的** decoder-only Transformer架构,装备因果留意力掩码,引入Rotary Position Embeddings (RoPE) 、SentencePiece 分词器(Kudo 和 Richardson,2018年),以及在 MLP 层中运行平方 ReLU 激活函数。还融入了分组查问留意力(GQA)技术。Nemotron-4-340B-Base 的超参数如下表所示,领有 9.4 亿嵌入参数和 331.6 亿非嵌入参数。

2.3 训练环节

Nemotron-4-340B-Base 的训练动用了 768 个 DGX H100 节点,每个节点装备有 8 块基于 NVIDIA Hopper 架构(NVIDIA,2022年)的 H100 80GB SXM5 GPU。这些 GPU 在口头 16 位浮点(bfloat16)运算时,单块 GPU 的峰值功能可达 989 teraFLOP/s。节点内的 GPU 经过NVLink和 NVSwitch(nvl)相连,GPU 间带宽高达 900 GB/s(双向各 450 GB/s)。每个节点还装备了 8 个 NVIDIA Mellanox Gbps HDR InfiniBand 服务器通道适配器(HCAs),以成功节点间的高速通讯。

采用了 8-way 张量并行、12-way 流水线并行以及数据并行技术来训练模型,并运用散布式优化器来扩散优化器形态,降落训练时的内存占用。随着批量大小的参与,数据并行度从 16 扩展至 64。

上表汇总了批量大小参与的三个阶段,并展现了每次迭代的期间和模型FLOP/s 应用率(Model FLOP/s Utilization,MFU)。MFU 权衡了 GPU 在模型训练中的效率,100% 代表通常峰值功能。

二次预训练战略标明,在模型训练末期调整数据散布和学习率衰减战略能清楚优化模型质量。详细而言,在成功了 8 万亿 token 的预训练后,以相反的损失目的继续在额外的 1 万亿 token 上启动训练。

在这个二次预训练阶段,采用了两种不同的数据散布战略:

结合一个优先极速衰减的学习率方案,发现这种数据散布的排序微格调有助于模型从预训练数据集颠簸过渡,并在训练的最后阶段更有效地学习新数据。

2.4 鼓励模型

2.4.1 鼓励模型构建

在模型对齐环节中,鼓励模型起着至关关键的作用,作为训练出色指令遵照模型时偏好排序和质量挑选的关键评判规范。

为了构建这一模型,依照与HelpSteer (Wang 等,2023b)相似的方法论,搜集了包括1万条人类偏好数据的新数据集HelpSteer2(),并已将其地下颁布。

多属性回归鼓励模型(multi-attribute regression reward models)在区分真正有用的消息与诸如因长度而偏好简短无用回答等有关特色方面更为有效。此外,回归模型在粗疏预测鼓励时表现更佳,能够捕捉到相似回答间协助性的巧妙差异。该回归鼓励模型基于Nemotron-4-340B-Base模型,经过交流最终的softmax层为一个新的鼓励“头部”构建而成。这个“头部”经过线性投影将最后一层的暗藏形态映射成一个包括HelpSteer五大属性(协助性、正确性、连接性、复杂性、啰嗦性)的五维向量。在推理时,这些属性值可以经过加权求和来综分解一个总体鼓励。

3. 对齐数据

随着模型功能的继续优化,现有的数据集已难以满足训练高度对齐模型的需求。同时,从人类处失掉高质量数据既费时又低廉。为此,深化钻研了分解数据生成(SDG)作为一种应答战略。

在整个对齐环节中,仅经常使用了约2万条人类标注数据(其中1万条用于监视式微调,另1万条HelpSteer2数据用于鼓励模型训练与偏好微调),而分解数据生成流程则为监视式微和谐偏好微调提供了超越98%的数据。

3.1 揭示词预备

思考到生成分解揭示(Generating Synthetic Prompts)是SDG(Synthetic>3.1.1 生成单轮揭示

上图展现了单轮揭示词的生成流程。疏导生成器输入多样化的微观主题,然后为每个微观主题生成关系的子主题。总共搜集了3000个主题,包括分解微观主题、分解子主题以及人工搜集的主题。经过疏导生成器提出与每个主题关系的开明式疑问,例如“机器学习是什么?”然后要求生成器细化疑问,使其愈加详尽详细。

关于写作类揭示,如“撰写一篇关于机器学习的论文”,疏导生成器依据给定主题 生成特定类型 的文档,如通讯稿或论文,并要求其包括更多细节。

应用C4数据集中的文本生成敞开式问答揭示,疏导生成器为每篇文档输入相应的指令,如“总结给定文本”或“基于给定文本,xxx是什么?”。然后,经常使用预约义的模板将文档与生成的指令结合起来。在生成数学和编程揭示时,咱们从数学和Python编程畛域搜集了多样化的关键词,并为这些畛域生成了上档次的主题和子主题。

3.1.2 生成两轮揭示

为了增强模型在多轮对话中的技艺,构建了两轮对话揭示,用于构建偏好数据集。这些揭示包括一个疑问、一个助手的回答,以及随后的一个疑问,格局为“用户:XXX;助手:XXX;用户:XXX;”。从ShareGPT失掉用户疑问,并应用中级指令模型生成助手的回答和下一个疑问。

为了更贴近理想环球的用户需求,还从LMSYS-Chat-1M(LMSYS)中提取了揭示。将一切揭示平衡地混合,并分为两个不同的汇合:一个用于监视学习,另一个用于偏好学习,确保两者之间没有堆叠。

在监视学习局部,移除了或者引发不希冀对话的不安保揭示。但是,在偏好学习局部,保管了这些揭示,使模型能够 学习区分安保与不安保的回答

上图中,对比了分解单轮揭示与LMSYS揭示。经常使用Mixtral-8x7B-Instruct-v0.1模型生成回应,并应用Nemotron-4-340B-Reward对回应的协助性启动评分。分解揭示的平均协助性得分高于LMSYS揭示,这标明LMSYS揭示在难度和复杂性上通常高于分解单轮揭示。

3.2 分解对话生成

经过监视微调,教会了模型如何以对话方式与用户互动。为了增强多轮对话的才干,设计了包括三轮对话的格局,以此发明出愈加活泼和互动的交流流程。

模型在模拟助手和用户角色之间轮换,经过迭代角色表演来成功。对用户环节启动了后处置,以模拟理想环球用户的提问方式,扫除了诸如“感谢您……”或“当然,我很乐意……”等礼貌用语。在分解演示数据时,采用了贪心采样战略。此外,应用Nemotron4-340B-Reward来评价对话的质量,为每个样本打分,并挑选出低于预设阈值的样本,确保只保管高质量的数据。

3.3 分解偏好数据生成

经常使用10K人工标注的HelpSteer2偏好数据来训练Nemotron-4-340B-Reward模型,同时也寻求更宽泛、更高质量和实在的偏好数据。因此,采用了以(揭示,选定回应,拒绝回应)的三元组方式生成分解偏好数据。

回应生成环节,偏好数据涵盖了分解单轮揭示、指令遵照揭示、两轮揭示以及实在环球中的ShareGPT揭示、LMSYS揭示,还有来自GSM8K和MATH训练数据集的揭示。

关于每个揭示,应用多个随机中级模型生成回应,确保偏好数据集中的回应多样性,供模型学习。咱们还构建了更具应战性的分解偏好示例,这些示例中的回应是咱们依据MT-Bench规范,从表现最佳的模型中随机生成的多个回应,以进一步推进模型的自我优化。

实在性作为评判规范。面对每个揭示的多个回应,须要评价它们的偏好排名,并决定出选定和拒绝的回应。关于一些可以经过实在性标签(如GSM8K和MATH训练数据集中的答案)或验证器(如指令遵照回应可以经过Python程序验证)来评价的义务,经常使用这些规范来判别每个回应的正确性,决定正确的回应作为选定的,失误的回应作为拒绝的。

以理想来判定(Ground-Truth-as-a-Judge) :面对每个揭示下的多种回应,须要评价它们的优劣并做出决定。有些义务可以经过规范答案(如GSM8K和MATH训练集中的疑问)或验证工具(比如经过Python程序测验指令遵照的回应)来评定,关于这些义务就间接采用这些规范来判定回应的正确与否。正确的回应被选中,失误的则被扫除。

在不足主观答案的状况下,尝试了两种评判方式: 大型言语模型作为评判者和鼓励模型作为评判者(LLM-as-Judge and Reward-Model-as-Judge) 。在大型言语模型作为评判者的状况下,将揭示和两个回应提交给它,并恳求它启动比拟。为防止顺序成见, 会以不同的顺序两次征询大型言语模型 当它两次给出分歧的评判时,咱们便确定了一个有效的 (揭示,选中,扫除)三元组。

评判的揭示可在报告原文的补充资料D中找到。虽然大型言语模型作为评判者在早期偏好数据集的构建中施展了作用,但进一步探求了鼓励模型作为评判者,它经过Nemotron-4-340B-Reward预测每对(揭示,回应)的得分,并据此确定偏好排名。

鼓励基准分数标明:鼓励模型作为评判者在准确性上逾越了大型言语模型作为评判者。特意是在难以区分的Chat-Hard类别中,鼓励模型作为评判者的表现清楚优于大型言语模型作为评判者,平均准确度为0.87比0.54。因此,在后续的数据集迭代中,采用鼓励模型作为评判者。

3.4 对齐的迭代:由弱到强

优质的数据是确保模型精准对齐的关键。在数据生成环节中,一个经过准确对齐的大型言语模型(LLM)必定能够在整个生成流程中严厉遵照指令。这引出了几个关键疑问:

遭到从弱到强的泛化通常的启示,开发了一种翻新的迭代方法,旨在逐渐优化数据至最优形态。这种方法巧妙地结合了对齐训练与数据分解的长处,使它们能够相互促成,成功继续的改良。

对齐环节与基础模型的预训练是同步启动的。在开局的迭代中,决定了Mixtral-8x7B-Instruct-v0.1作为起始的对齐模型,由于它已被证实是一个领有宽松容许证的弱小模型。应用生成的数据,训练了Nemotron-4-340B-Base的一个两边版本,即340B-Interm-1-Base。340B-Interm-1-Base的表现逾越了Mixtral 8x7B基础模型,进而使得340B-Interm-1-Instruct模型也逾越了Mixtral-8x7B-Instruct-v0.1模型。这标明,即使在监视较弱的状况下,也能激发出弱小的才干。

在第二次迭代中,采用了上一轮迭代中失掉的340B-Interm-1-Instruct模型作为新的数据生成器。得益于其相比Mixtral-8x7B-Instruct-v0.1的增强才干,第二轮迭代生成的分解数据质量更高。这些数据随后被用来训练340B-Interm-2-Base,使其退化为340B-Interm-2-Chat。这一迭代环节构成了一个自我增强的循环效应,其改良关键得益于两个方面:

在整个对齐环节中,启动了多轮的数据生成和细化,始终优化模型质量。

4. 对齐算法

遵照Ouyang等人(2022年)提出的规范模型校准协定,该协定分为两个阶段:监视微和谐偏好微调。

4.1 分段的监视式微调

监视式微调(Supervised Fine-tuning,SFT)标记着模型校准的起始步骤。传统做法是在一个阶段内成功SFT,经常使用包括一切义务样本的数据集。但是,试验结果标明, 同时学习多种行为有时会惹起它们之间的抵触 ,这会阻碍模型在一切义务上同时成功最佳校准。特意是在编码义务中,发现即使调整数据采样权重,也不可让模型对一切编码义务都到达校准。

为应答这一应战,提出了一个 分两阶段的SFT战略 ,准许模型按顺序、有方案地学习不同的行为。通常证实,这种方法在一切下游义务中都能取得更佳的表现。

代码SFT(Code SFT) :为优化编码和推理才干,同时防止对其余义务形成搅扰,首先在编码数据上口头纯正的SFT。要清楚优化模型的编码才干,须要少量的数据。为此,开发了“遗传指令”方法,模拟人造决定环节,应用自我指点和巫师编码者变异(wizard coder mutations)技术,从大批高质量样本中生成少量分解样本。还引入了一个顺应度函数,经过LLM评价生成指令及其处置方案的正确性和质量。经过评价的样本将参与种群池,退化环节将继续启动,直至到达预约的种群规模。该流程设计为支持多个体并行口头,以成功按需扩展。经过彻底的去重和挑选,保管了约80万样本的精选数据集,用于代码SFT训练。以固定学习率3e-7和全局批量大小128对模型启动单周期训练。

进入第二阶段,采用 通用监视式微调(General SFT) ,这一阶段经常使用了包括200K样本的混合数据集,笼罩了多样义务类型。为降落忘记旧常识的危险,此数据集中特意 融入了前一阶段编码SFT中2%的代码生成样本 。模型训练周期设定为三轮,全局批量大小设为128,同时在[1e-7, 5e-7]区间内启动学习率的精细搜查。在这两个微调阶段,对用户的回答启动了屏蔽,仅在助手的回答上计算损失,以确保模型专一于优化辅佐功能。

4.2 偏好微调

继监视微调之后,经过偏好微调进一步优化模型,让模型学习以(揭示,选中的回应,扫除的回应)三元组方式出现的偏好样例。

这一阶段的微调经过多轮迭代,不只采用了间接偏好优化算法,还融入了咱们新研发的鼓励感知偏好优化算法。

间接偏好优化(DPO)算法经过优化战略网络,旨在拉大选中与扫除回应间的隐性鼓励差异。在战略网络学习区分两类回应的环节中,发现无论选中的回应质量如何,随着两者差距的扩展,它们的或者性都在继续降落。实践上,战略网络在长期间训练后往往会产生过拟合现象,一个评测目的(如MT-Bench)的优化往往以就义其余目的(如零样本MMLU)为代价。

为缓解这些疑问,在DPO损失的基础上参与了加权的SFT损失,专门针对选中的回应。新增的SFT损失有助于坚持战略网络与偏好数据的分歧性,特意是当偏好数据并非源自参考战略时。为防止模型采用低质量的选中回应,会用Nemotron-4-340B-Reward挑选出高质量回应的样例,即使在不足实在标注的状况下。

构建了一个包括160K个样例的偏好数据集,笼罩了多样的义务类型。模型训练周期设为一轮,全局批量大小为256,坚持恒定的学习率。对学习率启动了[3e-8, 3e-7]范围的调整,DPO损失中的KL正则化系数在[3e-4, 3e-3]之间,SFT损失的权重则在[1e-5, 1e-3]之间启动微调。

鼓励驱动的偏好优化(RPO) :Nemotron的大局部的偏好数据属于分解类型,其偏好排序是基于Nemotron-4-340BReward所赋予的鼓励来判定的。与仅思考两个回应间二元顺序的DPO不同,鼓励间的差异实践上包括了更丰盛的消息。

实践上,某些被扫除的回应与选中的回应相比,质量差距微不足道;而有些则清楚逊色。DPO由于没有思考到这种质量差异,一昧地拉大选中与扫除回应间的隐含鼓励差距,这或者造成过拟合,并或者无故地“摈弃”那些高质量的扫除回应。

为处置这一疑问,引入了一种新算法——鼓励驱动的偏好优化(RPO),该算法旨在应用战略网络所定义的隐含鼓励来更准确地预计鼓励差距。

相较于DPO,RPO经过学习预计鼓励差异,有效防止了过拟合现象。以DPO训练失掉的模型审核点作为初始形态和参照战略,继续采用RPO对模型启动训练。采用了一个包括30万个样本的偏好数据集,并对选中的回应实施了较为宽松的质量挑选规范。

虽然仅一轮RPO训练就能片面优化模型在各项义务上的表现,但还是口头了三轮RPO迭代,每轮迭代都以前一轮的审核点作为终点和参照。咱们发现,随着RPO迭代次数的参与,模型功能继续取得优化。经过三轮RPO训练后失掉的审核点,即为最终版的Nemotron-4-340B-Instruct模型。

• 论文原文:​​

本文转载自​​,作者:

© 版权声明
评论 抢沙发
加载中~
每日一言
不怕万人阻挡,只怕自己投降
Not afraid of people blocking, I'm afraid their surrender