本文作者来自于上海交通大学人工智能学院的Multi-Agent Governance & Intelligence Crew (MAGIC团队)和牛津大学。独特第一作者有唐铄、庞祥鹤、刘泽希和唐博瀚。指点教员包括上海交大的王延峰传授、陈思衡副传授,以及牛津大学的董晓文副传授。
随着大言语模型(LLMs)在处置复杂义务中的宽泛运行,高品质数据的失掉变得尤为关键。为了确保模型能够准确了解并执行用户指令,模型必定依赖少量实在且多样化的数据启动后训练。但是,失掉此类数据往往随同着高昂的老本和数据稀缺性。因此,如何有效生成能够反映事实需求的高品质分解数据,成为了亟需处置的**应战。
那么,实在数据的需求是如何发生的?想象一位程序员在启动机器学习模型的开发与调优时,他会提出疑问:「如何调整超参数以提高模型预测准确率?」 这种指令并非凭空而来,而是源于他所处的详细上班情境 —— 数据剖析和模型优化。雷同,用户在日常生存中的指令无论是编程义务、医疗诊断还是商业决策,往往与他们所面临的详细场景亲密关系。要生成能够实在反映用户需求的分解数据,必定从这些实践情境中登程,模拟出与用户需求相婚配的场景。
基于这一理念,上海交通大学与牛津大学的钻研团队提出了一项翻新方案 —— 基于多智能体模拟的数据分解。团队提出了 MATRIX——AI 社会模拟器,构建了一个由 1000 多个 AI 智能体组成的模拟社会。在这个模拟社会中,每一个 AI 智能体代表了一个领有独立身份和人格的数字人,这些 AI 智能体可以模拟出复杂的交换和互动形式,涵盖了从软件开发到商业优惠的宽泛场景。基于这些场景,团队进一步开发了 MATRIX-Gen 数据分解器,能够依据不同需求分解高度多样化且高品质的训练指令数据。
为验证 MATRIX-Gen 分解数据的高品质,钻研团队经常使用 Llama-3-8B-Instruct 驱动社会模拟,仅分解了 2 万条数据用于训练 Llama-3-8B-Base 模型。虽然数据量极少,训练后的模型在 AlpacaEval 2 和 Arena-Hard 基准测试中居然大幅逾越了 Llama-3-8B-Instruct 自身。这一结果不只证实了 MATRIX-Gen 分解数据的高效性,也标记着模型在分解数据驱动下成功了自我退化。此外,在代码生成、多轮对话和安保性义务上,MATRIX-Gen 生成的公用数据雷同体现优秀,甚至逾越了为这些特定义务设计的公用数据集。这项钻研为经过火解数据优化大言语模型功能提供了全新的处置方案,展现了 AI 模拟社会在数据分解中的渺小后劲,为未来大言语模型的后训练数据分解开拓了翻新的门路。
基于分解数据的后训练系统
本钻研提出的后训练系统旨在应用基于多智能体模拟技术构建的 AI 模拟社会,分解高品质的训练数据,以优化预训练大言语模型的指令追随才干。该系统的**思念源于人类在事实场景中提问的方式 —— 人们基于自身需求提出多样且深化的疑问。因此,本钻研经过 AI 模拟社集分解人类社会中的场景,并应用这些场景疏导 LLM 提出消息丰盛、贴近事实的疑问,从而发生高品质的训练数据。
如下图所示,该系统蕴含三个步骤:
1. 分解社会场景:应用多智能体模拟技术构建 AI 模拟社会,该社会中的每个场景由一组 AI 智能体及其对应的文本执行构成。为了确保社会场景的实在性和多样性,本钻研设计了大规模人类社会模拟器 MATRIX,创立了一个蕴含各种 AI 智能体的互动环境。此模拟器充散施展了 LLM 的角色表演才干,使得 AI 智能体能够真切地模拟人类行为,启动布局、观察和执行,进而生成丰盛且高度实在的社会场景。
2. 分解训练数据:依据分解的社会场景,生成合乎义务需求的后训练数据。本钻研设计了场景驱动的指令生成器 MATRIX-Gen,模拟人类在日常生存中提出疑问的环节,联合场景生成指令,确保更高的实在性;经过选用特定场景,能够分解合乎义务需求的数据,具有可控性。这一步骤分解包括 SFT、DPO 以及各种公用数据集。
3. 模型微调:应用分解的 SFT 数据集,对预训练模型启动监视微调,以取得具有指令追随才干的模型。随后,基于分解的偏好数据集,驳回 DPO 进一步训练模型。
为了分解多样且丰盛的场景,以助力数据的分解,本钻研提出了人类社会模拟器 MATRIX。该模拟器的输入为若干 AI 智能体档案,输入为文本方式的场景。经过模拟人类的 AI 智能体和结构化的通讯机制,MATRIX 成功了大规模的人类社会模拟,从而生成多样且实在的场景。
在分解了实在多样化的社会场景后,本钻研设计了场景驱动的指令生成器 MATRIX-Gen,以满足特定义务需求并分解后训练数据。经过选用与用户需求关系的场景,MATRIX-Gen 能够生成合乎人类用意的指令,从而确保分解指令的实在性和可控性。
如下图所示,在分解后训练数据的环节中,MATRIX-Gen 模拟了人类提问的环节。针对不同数据场景的需求(如通用义务或代码义务),MATRIX-Gen 联合每个 AI 智能体的共性和执行,将这些消息整合到指令生成揭示中,模拟人类在日常生存中提出疑问的方式。随后,基于上述指令生成揭示,MATRIX-Gen 间接调用对齐的 LLM 生成分解指令及其对应的回答。
下图展现了一位 IT 经理在汽车数据剖析场景下,提出「如何调整超参数以提高模型预测准确率」的例子:
经过这一方法,本钻研能够分解三种类型的数据集,包括监视微调数据集 MATRIX-Gen-SFT、偏好调优数据集 MATRIX-Gen-DPO,以及特定畛域的 SFT 数据。每种数据集的指令生成在复杂性和专业性上各具特点,确保满足不同场景下的需求。
在试验中,本钻研选用 Llama-3-8B-Instruct 作为数据分解模型,选用 Llama-3-8B 作为训练的模型,经过模型的训练效果评价 MATRIX-Gen 在通用义务、多轮对话、代码生成上的数据分解才干。
AlpacaEval 2 和 Arena-Hard 上的评价结果标明,经过多智能体模拟分解的 MATRIX-Gen-SFT 数据优于多个实在数据集以及分解数据集。
在 MATRIX-SFT 模型上 DPO 的训练结果标明,经过 MATRIX-Gen-DPO 训练的模型逾越多种分解偏好数据训练的模型,以及 Llama-3-8B-Instruct。值得留意的是,MATRIX-Gen-DPO 训练后的模型总共仅经常使用了 2 万条分解数据,便成功了对 Llama-3-8B-Instruct 自身的逾越,充沛展现了其高品质和自我退化的才干。
在代码生成与安保输入的义务中,MATRIX-Gen 分解的数据集均逾越了对应畛域的公用数据集,显示出 MATRIX-Gen 在分解数据上的高可控性。
上图展现了 MATRIX-Gen-SFT 分解指令的可视化,显示出分解数据的多样性。
本钻研提出了一种基于 AI 智能体社会模拟的后训练数据分解框架。附丽 MATRIX 分解的 AI 模拟社会,MATRIX-Gen 能够可控地分解高品质的多样数据。在通用和公用义务中,仅经常使用 0.2% 的数据,即可取得优于大模型研发领军团队 Meta AI 所用数据集的模型训练效果,突显了 MATRIX-Gen 在数据分解中的长处。
本钻研宿愿该数据分解框架能够协助定量钻研何种类型的数据更适宜用于监视微和谐偏好优化,深化讨论不同数据特性对模型功能的影响。此外,咱们展望经过引入更弱小的 AI 智能体,如具有工具调用才干的 AI 智能体,以及接入更丰盛的环境,进一步分解更复杂的数据,从而优化大言语模型在复杂义务中的体现。