引言:探求小规模语料库中的常识失掉
在现代的人造言语处置畛域,大规模预训练模型曾经显示出了在各种常识密集型义务中的出色功能。这些模型理论依赖于少量的、结构化不强的互联网文本数据启动训练,从而失掉丰盛的环球常识。但是,这种常识失掉模式存在一个清楚的疑问:数据效率低下。为了学习特定的理想,模型必定在成千盈百的不同表述中启动训练,这在面对小规模、特定畛域的语料库时尤为突出,由于在这些语料库中,每个理想或者很少产生或仅产生一次性。
为了处置这一疑问,本文提出了一种新的方法——分解继续预训练(synthetic continued pretraining)。这种方法首先应用小规模的特定畛域语料库分解一个更易于学习的大规模语料库,而后在此分解语料库上继续启动预训练。经过这种模式,模型能够在没有访问源文档的状况下回答疑问和遵照与源文档相关的指令。
本钻研的**奉献包括提出了一种新的从小规模语料库中失掉常识的方法,并经过试验验证了该方法的有效性。此外,本文还构建了一个便捷的数学模型来剖析分解数据增强算法,并展现了如何经过火解数据增强来“从新陈列”常识,以成功更高效的学习。
论文题目 : Synthetic Continued Pretraining
机构 : Stanford University
论文链接 :
钻研背景与动机
在人造言语处置畛域,大规模预训练模型曾经显示出了在失掉环球常识方面的清楚才干,这使得它们能够口头常识密集型义务。但是,这种常识失掉环节是数据低效的,模型须要在成千盈百的不同表白中学习到特定的理想。这在顺应特定畛域的小规模文档集时尤为应战,由于在这些文档中,某些理想或者很少产生或只产生一次性。
为了处置从小规模语料库中失掉常识的疑问,咱们提出了一种经常使用分解数据继续预训练的方法。这种方法首先经常使用小规模的畛域特定语料库来分解一个更适宜学习的大规模语料库,而后在这个分解的语料库上启动继续预训练。这种方法的**在于,经过火解数据增强算法来参与数据的多样性,从而提高模型的数据效率和学习才干。
方法引见:EntiGraph分解数据增强算法
1. 算法概述
EntiGraph是一种基于实体的数据增强算法,它经过剖析文档中的实体及其相关来分解新的文本数据。该算法首先从源文档中提取关键实体,而后应用言语模型生成关于这些实体之间相关的文本形容,经过这种模式迭代地填充常识图谱。
2. 实体提取
EntiGraph首先对文档启动实体提取,识别出文档中的关键实体,如人名、地点、概念等。这一步是经过向预训练的言语模型输入文档并恳求它标识出文档中的重要实体来成功的。
3. 实体形容生成
关于每个提取出的实体,EntiGraph经常使用言语模型生成该实体在文档高低文中的详细形容。这包括实体的定义、它在文档中的作用以及与其余实体的相关等。
4. 相关剖析
在实体形容生成之后,EntiGraph进一步剖析不同实体之间的相关。算法会探务实体对或实体组合之间的潜在咨询,并生成形容这些相关的文本。这一步骤协助模型了解和学习实体之间复杂的相互作用和依赖。
经过这三个步骤,EntiGraph能够从一个小规模的、消息密度高的语料库中生成一个大规模的、消息丰盛且多样化的分解语料库,为言语模型的继续预训练提供了更丰盛的训练资料。这种方法不只增强了模型对特定畛域常识的了解,还提高了模型在面对新畛域或少见理想时的顺应才干和体现。
试验设置
在本钻研中,咱们提出了一种名为“分解继续预训练”(synthetic continued pretraining)的方法,旨在经过火解数据增强来提高言语模型从小规模语料库中学习的效率。咱们经常使用了一个名为EntiGraph的数据增强算法,该算法经过剖析和分解文档中的实体相关来生成新的文本数据。
试验设计与评价方法
咱们的试验基于规范的阅读了解数据集(QuALITY, Pang et al. (2022))。在这个设置中,咱们首先从一个蕴含265本书籍的小规模语料库(总共1.3M个token)中,经常使用EntiGraph生成了600M个分解token。接着,咱们在这些分解token上继续预训练一个名为Llama 3 8B的言语模型,并在QuALITY疑问集上评价模型的问答准确性。
数据增强算法:EntiGraph
EntiGraph算法首先从源文档中提取关键实体,而后应用言语模型生成关于这些实体的文本形容,以及这些实体之间的相关形容。这一环节包括三个步骤:
经过这种方法,咱们能够从一个高度稀释的常识示意中生成一个大规模、多样化的分解语料库,为模型提供更丰盛的学习资料。
重要试验结果与剖析
问答准确性评价
在经常使用EntiGraph生成的600M分解token启动预训练后,咱们观察到模型在QuALITY疑问集上的体现清楚优化。详细来说,模型的问答准确率从基线模型的39.49%提高到56.42%。这一结果标明,分解继续预训练能够有效地提高模型处置特定畛域疑问的才干。
与基线模型的比拟
咱们还将EntiGraph预训练模型与两个基线模型启动了比拟:
结果显示,EntiGraph预训练模型在问答义务上的体现清楚优于这两个基线模型,特意是与重述语料预训练模型相比,EntiGraph模型展现了更好的常识失掉和运行才干。
数据增强的影响
经过对比不同数量的分解token对模型功能的影响,咱们发现模型的准确率与经常使用的分解token数量呈对数线性相关。这一发现允许了咱们的假定:经过参与分解数据的多样性和数量,可以有效地优化模型的学习效率和最终功能。
综上所述,分解继续预训练和EntiGraph数据增强算法在提高言语模型从小规模、专业畛域语料库中学习的效率方面显示出了清楚的后劲。这些结果为未来在更宽泛的运行中经常使用分解数据生成技术提供了有价值的见地和证据。
总结
本钻研提出了一种陈腐的分解继续预训练方法,经过EntiGraph算法生成高品质的分解数据,有效地允许了小规模语料库上的常识学习。试验结果标明,该方法能够清楚提高模型在特定畛域的体现,尤其是在闭书问答和指令遵照义务上。此外,咱们还讨论了分解数据的多样性和品质、模型的泛化才干以及计算效率和可裁减性等未来的钻研方向。
经过火解继续预训练,咱们不只提高了模型在特定畛域的体现,还为未来在数据受限环境下的模型训练提供了新的思绪和方法。宿愿未来的钻研能够在此基础上,进一步探求和优化分解数据生成和模型预训练的方法,以应答更宽泛的运行场景和应战。
本文转载自,作者: