1. 钻研背景与动机
近年来,大言语模型(Large Language Models, LLMs)在人工自动畛域取得了渺小的停顿。为了评价这些模型的才干,钻研人员开发了许多评价基准。但是,随着这些基准的宽泛经常使用,人们对其适当性和偏心性发生了越来越多的担心。
本钻研的关键动机包括:
例如,GPT-3在训练环节中发现其预训练语料库蕴含了Children's Book Test数据集,而LLaMA-2则提到BoolQ数据集中的高低文是间接从网页中提取的,这些网页或者曾经蕴含在地下可用的语料库中。这些状况都或者造成评价结果的偏向。
2. 基准数据暴露的实证钻研
为了钻研基准数据暴露的影响,钻研人员设计了三种数据暴露场景:
钻研者选用了四种不同规模的言语模型启动评价:
评价基准包括:
试验结果显示,数据暴露清楚优化了模型在关系基准上的体现。以下是局部结果的示例:
模型 |
训练设置 |
GPT-Neo (1.3B) |
无 |
GPT-Neo (1.3B) |
+一切训练集 |
GPT-Neo (1.3B) |
+一切训练集+测试揭示 |
这些结果清楚地标明,即使是较小的模型(如1.3B参数的模型)在数据暴露的状况下也能清楚提高功能,有时甚至超越了未经暴露数据训练的更大模型。
3. 基准数据暴露的潜在危险
钻研还讨论了基准数据暴露或者带来的其余危险:
3.1 对其余义务功能的负面影响
钻研者选用了三个未蕴含在暴露数据中的义务来评价影响:
结果显示,在暴露数据上训练后,模型在这些义务上的功能普遍降低。例如:
模型 |
训练设置 |
LLaMA-2 (7B) |
无 |
LLaMA-2 (7B) |
+暴露 |
这标明,仅在暴露数据上训练或者会造成模型在其余惯例义务上的功能降低。
3.2 降低模型的顺应才干
钻研者还讨论了数据暴露对模型后续顺应性的影响。他们经常使用Alpaca和CodeAlpaca数据集对模型启动指令微调,而后评价其功能。结果显示:
模型 |
训练设置 |
LLaMA-2 (7B) |
+指令微调 |
LLaMA-2 (7B) |
+暴露+指令微调 |
这标明,在暴露数据上训练的模型在后续顺应新义务时或者面临更大的艰巨。
4. 讨论与倡导
基于钻研发现,论文提出了以下倡导:
4.1 通用倡导
4.2 对LLM开发者的倡导
4.3 对基准保养者的倡导
5. 局限性与未来上班
本钻研存在一些局限性:
未来上班可以focus在这些方向上,启动更系统、更片面的钻研。
6. 论断
本钻研深化讨论了大言语模型评价中的基准数据暴露疑问,得出以下关键论断:
这项钻研为偏心、牢靠地评价大言语模型提供了贵重的见地和适用倡导,关于推进LLM评价畛域的开展具备关键意义。
论文原文:《Don’t Make Your LLM an Evaluation Benchmark Cheater》
本文转载自,作者: