目先人们如同已在接受这样的观念:“大言语模型(LLMs)正在以指数速度提高。” 就在几天前,宾州大学沃登商学院 (The Wharton School) 的Ethan Mollick传授在一篇广受关注的博客文章中宣称,“目前对 LLMs 的才干评价显示,LLM的才干每5到14个月翻一番”。
实践上Mollick传授援用的钻研并未显示他所宣称的内容。假设你细心阅读,它没有提到才干的提高。它显示的是模型在到达给定功能水平所需的计算资源变得更有效率,“到达给定功能水平所需的计算量大概每8个月减半,95%的置信区间为5到14个月。”但是,(a)过去的体现并不总是能预测未来的体现,且(b)钻研中的大局部数据都比拟古老,没有往年的数据。
主要是——咱们都知道GPT-3比GPT-2大幅优化。咱们也都知道GPT-4(13个月前颁布)比GPT-3大幅优化。但是从那出现了什么?
我可以被压服,在2020-2023年的某些月份里才干确实翻倍了,但我齐全看不到过去13个月中有这样的状况。
同样,我看到的诸多迹象标明咱们曾经进入了收益递减的时间。
让我真正开局思索这一切的是OpenAI几天前颁布的一张图表,宣传他们最新的模型GPT-4 Turbo。我不时疑心这是他们尝试但失败的GPT-5。看起来不错——提高了!但是细心看。
实践上,这张图表显示了最近几个月在一系列不同目的上的一些改良,大少数是过度的。但它也齐全触发了我的警觉感。
我立刻不青睐这张图表的要素是它恣意地显示了两个十分近期的模型,而没有显示之前的历史数据。所以是的,在某些目的上确实有停顿,但咱们真正须要看到的是常年的增长。这让我开局思索。并且绘图。关于许多目的,我基本找不到GPT-2或GPT-3的任何数据,有时甚至关于GPT-4也是如此。(在一些新目的上,GPT-2和GPT-3的数据成果上都为零。)但关于一个称为MMLU的常常出现基准,我能够找到GPT-2、GPT-3和GPT-4的历史数据(但没有GPT 3.5)。
这是我找到的状况(y轴是百分比准确度):
从GPT-2到GPT-3有渺小的跃升。从GPT-3到GPT-4也有渺小的跃升……但从GPT-4(13个月前)到GPT-4 Turbo(刚颁布)则不太显著。很难不将这个图表视为收益递减假定的初步证据。无论曾经有过多少翻倍,如今兴许曾经到了止境。
当然,这里有一个疑问:当你凑近图表的顶部时,你会遇到统计学上称之为“范畴限度”的疑问。你不能在MMLU上从85分跳到115分;100%是或者的最高分。而且许多基准测试都很复杂且不完美。得分为100或者实践上是可疑的,由于这或者标明所探讨的模型只是便捷地记住了数据。兴许真正的实践下限是95%。
我的直觉是咱们还没有到达MMLU的真正下限,这是收益递减的实在迹象。但好吧,让咱们再找另一个目的看看。
X网站上有人向我指出了《纽约时报》的Connections游戏。痴呆的人或者能够在任何给定的数据上取得90%以上的得分,但目前的模型还没有凑近。所以,在这里,就没有范畴限度的疑问了。多亏了Lech Mazur,我能够找到一系列历史模型的数据,虽然没有回溯到GPT-2或GPT-3。但足以让咱们对或者正在出现的状况有些了解:
从GPT 3.5 Turbo到4有很大的飞跃,但(再次)从GPT-4到两个不同版本的GPT-4 Turbo只要过度的提高。范畴限度并不是疑问,但咱们再次看到了收益递减的迹象。
假设我绘制的两张图表有一点正确,那么Mollick所宣称的“大型言语模型改良速度显示才干每5到14个月翻一番”的说法曾经不再成立。
我在2022年曾正告过的墙壁,如今或者终于快要来临了。
再从另一个角度看,我刚看到的这张图表:自GPT-4颁布以来,多个模型在GPT-4水平功能上的渺小收敛,但是并没有显著上游的模型。
那么质性数据呢?在很多方面,质性数据看起来都是一样的。一个思索的模式是征询在2022年我正告过的任何疑问(比如幻觉和愚昧的失误)能否曾经处置了。
我以为公平地说,它们没有。本周颁布的GPT-Turbo依然会发生一些让人咂舌的疑问,就像Phil Libin刚刚发来的这个对话一样:
本周我读到的最有目共睹的事件之一是在《信息》(The Information)上。信息曾经传开,而疑问显然并没有获取处置:
另一种思索这个疑问的模式(见下面的第三张图)是,大概有5到7个最近的模型与GPT-4持平,但没有一个显著地上游。
当然,单纯在基准测试上取得提高并无余以说明疑问;很少有基准测试能够捕捉到事实环球的复杂性。即使LLMs在一切现有的基准测试中都到达了最高水平,咱们或者依然有很长的路要走。
假设咱们真的曾经从极速停顿转向了收益递减的制度,而幻觉和愚昧的失误依然存在,那么LLMs或者永远不会预备好投入实践运行。
同样,正如我在八月份所正告的那样,咱们很或者会迎来一场纠正。在最极其的状况下,OpenAI的860亿美元估值在预先或者会被视为人工智能的WeWork时辰。
在最近几周,Inflection AI基本上封锁了业务,Stability AI堕入了困境,以LLM为基础的智能驾驶车辆公司Ghost封锁了业务,一个YouTube上的软件工程师提出了关于备受炒作的AI编码系统Devin的相当重大的疑问。
假设对GenAI的激情衰退,市场估值暴涨,人工智能不会隐没,LLMs也不会隐没;它们依然会作为统计近似的工具存在。
但这个位置或者会更小;齐全有或者LLMs自身永远不可到达去年的疯狂希冀。
牢靠、值得信任的人工智能必需是可以成功的,但咱们或者须要从新扫视疑问来成功这一点。
本文转载自,作者: