昨天,Andrej Karpathy又发了长推,不过用了一句很有争议的话扫尾——「RLHF只是勉强的RL」。
这条推特堪称「一石激发千层浪」,瞬间扑灭了LLM社区的探讨激情。
毕竟RLHF作为刚提出没几年的方法,又陈腐又有争议。一边遭受质疑,一边又在工业界和学界迅速盛行。
5G冲浪的LeCun也赶来支援Karpathy,但他的话很短,只要一句——「RLHF不是真正的RL」。
RLHF最早可以追溯到OpenAI安保团队2017年宣布的论文:
论文地址:
过后,Jan Leike还在DeepMind、Dario Amodei还没开办Anthropic,而OpenAI还没all in言语模型,仍是一家钻研范围更宽泛的AI公司。
他们提出,经过人类反应,让AI模型更好地学习「如何翻出一个美丽的后空翻」。
训练时,AI agent在环境中始终观察并执行,并获取鼓励模型的反应启动自我改良。但比拟特意的是,鼓励函数是由拟合人类反应获取的。
2019年,这项技术被用到了NLP畛域,用于微调言语模型。
论文地址:
这篇论文附带的代码也很好地定义了RLHF的规范流程。
仓库地址:
到了2022年3月,ChatGPT颁布前夕,OpenAI颁布了经常使用RLHF微调过的大模型InstructGPT,这是弥合GPT-3和GPT-3.5 Turbo之间差距的关键一步,后者为ChatGPT的推出提供了关健能源。
论文地址:
尔后,RLHF就成为了OpenAI、DeepMind、谷歌、Anthropic等AI巨头们训练模型的必备环节。
所以,Karpathy为什么会突然对此发难?咱们先来看一下他的推特原文是怎样说的。
Karpathy原帖的大意如下:
RLHF全称为「从人类反应中启动强化学习」(Reinforcement Learning from Human Feedback),是训练LLM的第三个阶段,也是最后一个关键阶段,接在预训练和监视微调(SFT)之后。
我对RLHF的批判是:它简直算不上是真正的强化学习,而且我以为这一点没有被宽泛了解。强化学习很弱小,而RLHF则不然。
让咱们来看一个AlphaGo的例子,它的训练用到了实践的RL算法:计算机经过下围棋,在最大化鼓励函数(即赢得较量)的推演环节中启动训练,最终逾越了最低劣的人类棋手。AlphaGo并不是用RLHF训练的,否则它的效果就不会这么好。
那么,用RLHF训练AlphaGo会是什么样子呢?首先,你须要让人类标注者看到两个围棋局面,并征询他们更青睐哪个:
你须要搜集大略10万条这类的对比数据,并训练一个「鼓励模型」RM(Reward Model)来模拟人类对棋盘形态的这种「直觉判别」(vibe check),使RM的判别在平均水平上与人类分歧。
有了鼓励模型的直觉判别,就可以在此基础上运转强化学习,让原模型学习下出能够让人类直觉上以为不错的棋步。
显然,这在围棋中不会产出太好的结果,有两个基本且独立的要素:
1. 直觉或许会发生误导。这并不是真正的鼓励(赢得较量),而是个很差的代替指标。但更糟的是——
2.强化学习优化会失控,由于它很快就会发现反抗鼓励模型的棋盘形态。RM是一个领有数十亿参数的宏大神经网络,用来模拟直觉。有些棋盘形态超出了训练数据的散布范围,或许并不是好的形态,但由于偶然性,也会从RM获取了很高的鼓励。
出于齐全相反的要素,有时我惊讶于RLHF对LLM的效果,由于其中的RM也在启动雷同的直觉判别。它对人类评分员仿佛青睐的那类照应打出高分,但这不是正确处置疑问的「实践」指标,只是人类感觉不错的代替指标。
其次,RLHF不能运转太久,由于原模型很快就能学会操控鼓励模型,从而预测出一些看起来很奇异的token。比如,LLM助手会开局对揭示词照应一些无厘头的内容,像「the the the the the the」。
这在人类看来很荒唐,但由于某种要素,RM以为这些照应看起来很棒。
这就是LLM找到的反抗性案例(adversarial examples),关于RM的训练数据而言,这是未定义畛域的散布外数据。
你可以重复将这些特定例子增加到训练集中来缓解这种状况,但下次还会有其余反抗性案例发生。因此,RLHF不能运转过多步骤,几百/几千步后就必定停下,由于模型的优化环节将开局操控RM。这不是像AlphaGo那样的强化学习。
但是,在构建LLM助手时,RLHF照旧是利大于弊。其中有几个巧妙的要素,但我最青睐指出的是,LLM可以经过RLHF环节受益于生成器和判别器之间的难度差距(generator-discriminator gap)。
关于许多类型的疑问,相比于从零开局撰写理想答案,人类标注者会感觉从几个候选当选用最佳答案要容易得多。比如这样的揭示:「生成一首关于回形针的诗」,个别的人类标注者很难写出一首好诗作为SFT示例,但在给出几个候选答案的状况下,他们可以选出一个看起来不错的诗。
因此,RLHF相当于应用了这种人类监视的「简便性」差距。
还有其余几个要素,例如,RLHF也有助于缩小幻觉现象。假设RM是一个足够弱小的模型,可以捕捉到LLM的虚拟内容,就能经过低鼓励来处罚这种行为,教会模型在不确定时防止冒险经常使用理想知识。但对幻觉及其令人满意的缓解措施是另一个话题,此处不再赘述。
总之,RLHF确实是净有用的,但它不是传统的强化学习。
迄今为止,在开明畛域还没有发生消费级的「实践」RL方法,可以大规模地在LLM上成功,并给出令人信服的演示。从直观上讲,这是由于在开明式的疑问处置义务中给出鼓励值(等效于AlphaGo赢得较量)确实很艰巨。
在一个敞开的、相似游戏的环境中,比如围棋,灵活遭到限度,鼓励函数易于评价且不可操控。但你如何为总结一篇文章提供明白的鼓励?或许回答关于pip装置的略显含糊的疑问?或许讲个笑话?或许将一些Java代码重写为Python?
准则上,朝这个方向开展是或许的,但并不便捷,它须要一些发明性的思索。假设有人给出令人信服的处置打算,就能运转实践的强化学习,那种让AlphaGo在围棋中击败人类的强化学习,只是最后获取的LLM将有或许在开明畛域疑问处置中击败人类。
强化学习究竟是什么
假设RLHF「不是RL」,那真正的RL是什么?
Karpathy的形容比拟繁复而直观——就是AlphaGo用的那种。
幸亏,「强化学习」是一团体为提出的概念,更容易厘清;而且「强化学习之父」Richard Sutton专门写过一本书来解释这个畛域的基本疑问。
扫尾第一章第一节,强化学习的基本概念。只管不是谨严完备的数学定义,但基本说明了要点。
除了agent和环境的存在,强化学习系统中还有以下四个要素:
那么疑问来了,依据Sutton书中对强化学习的定义,你赞同Karpathy的说法吗?
谁赞同,谁推戴?
十分显著的是,Karpathy的观念吸引了许多LLM畛域的学者和钻研员的关注。
谷歌大脑、DeepMind钻研迷信家Kevein Murphy:
Allen AI机器学习钻研员Nathan Lambert回复:
这张图出自Lambert自己撰写的博客:
之后,他又专门发推动一步解释:
很稀有的是,以上是为数不多力挺Karpathy的观念。少数人还是站在了Karpathy的统一面反驳他。
评论区有网友间接回怼:「你就是看鼓励函数不悦目」。
Karpathy只能继续解释:
马里兰大学副传授Furong Huang的观念更强调RLHF对LLM的价值。
Mila在读博士、Meta钻研员Pierluca D'Oro自己就在为agent开发鼓励模型,他赞同Karpathy「RLHF不是真正的RL」的说法,但并不以为Karpathy预期的那种鼓励模型能够成功。
华盛顿大学助理传授、谷歌AI初级钻研迷信家Natasha Jaques的推戴态度更显明,力挺RLHF方法:
原文链接: