写在前面
大家好,我是刘聪NLP。
大模型时代,数据至上,如何应用大模型分解更多高品质数据也备受关注。
当天给大家分享一个无心思的大模型分解数据方法-MAGPIE,在不须要种子数据和额外人工干预的状况下,开掘出对齐过的模型自身的指令数据。
《MAGPIE: Alignment>
paper:https://github.com/magpie-align/magpie
**现实:对齐过的大模型自身是经过少量指令数据对齐得来,往往这些对齐后的模型接受的输入理论由“前置查问模板”、“查问内容”、“后置查问模板”组成(例如:Llama2-Chat模型接受的输入是"[INST] Hi! [/INST]",[INST] 是前置查问模板”,[/INST]则是后置查问模板)当对模型仅输入前置模板时,模型会自回归的分解“查问内容”;并且当组合齐全时,开源取得模型的回复结果。
这样就变相地开掘出对齐模型的指令数据,你认为只开了模型,我间接挖向
方法引见
如上图所示,分解数据重要触及两个步骤:
留意:在指令分解环节中,Temperature和Top-p都须要开得比拟大,保障指令的多样性;在回复分解环节中,驳回贪心解码,自动概率最高的Token或者来自模型的训练语料。
当然间接生成的指令是触及的场景是宽泛、随机的,假设须要针对限定义务启动数据生成,可以经过参与系统揭示词来限定场景,比如:参与对数学义务启动指令数据生成,
假构想失掉多轮对话数据,只有要在单轮的指令数据前面继续启动指令和回复的生成即可。但当开源模型自身参数较小时,生成的多轮数据或者产生遗记高低文内容的状况,可以经过参与系统揭示的模式,让模型强迫记住上文消息。还可以结构偏好数据,额外应用模型基座生成回复,再经过鼓励模型FsfairX-LLaMA3-RM-v0.1启动打分,保管分解回复分数大于基座回复分数的数据。
数据剖析
权衡分解数据好坏,最便捷间接方法就是SFT一把模型,比拟训练后模型的成果。
MAGPIE方法应用Llama3-8B-Instruct模型和Llama3-70B-Instruct模型区分结构了MAGPIE-Air数据和MAGPIE-Pro数据,具体散布如下表所示,
与ShareGPT、WildChat、Evol Instruct、UltraChat、OpenHermes和Tulu V2 Mix数据区分对Llama3-8B模型启动微调,成果如下表所示,
驳回MAGPIE-Air和MAGPIE-Pro训练的模型,要比其余数据集训练的模型成果要好,甚至在AlpacaEval 2榜单上超越了原始的Llama3-Instruct模型。
Pro数据训练的模型优于Air数据训练的模型,重要是Llama3-70B-Instruct模型才干更强,取得的指令数据品质更高。
经过过滤的数据集训练的模型成果比原始数据集更优,其中过滤目的包含:
下面每个过滤数据的具体过滤规定如下表所示,
应用MAGPIE-Pro-300K-Filtered数据集,训练Qwen1.5-4B和Qwen1.5-7B模型的成果要好于Qwen1.5-4B-Chat和Qwen1.5-7B-Chat模型,说明MAGPIE方法失掉的指令数据对其余非同源模型,依然有效。
多轮数据的品质要高于单论数据集。
其余榜单(MMLU 、ARC、HellaSwag、TruthfulQA、Winogard、GSM8K、MMLU-Redux)上的成果如下,
对MAGPIE数据启动安保性剖析,应用Llama-Guard-2模型启动预测,有害指令少于1%。
写在最后
MAGPIE方法不用种子数据,不用低廉的GPT4API接口,仅靠开掘开源模型自身,就可以失掉高品质分解数据,是个幽默的钻研。