企业宣传,产品推广,广告招商,广告投放联系seowdb

处罚AI自我学习 o1外围作者MIT演讲 比试图教会AI每一项义务更关键

“o1发布后,一个新的范式发生了”

其中关键,OpenAI钻研迷信家、o1**奉献者 Hyung Won Chung ,刚刚就此分享了他在MIT的一次性演讲。

演讲主题为“Don’t teach. Incentivize,**观念是:

思想链作者Jason Wei 迅速赶来打call:

Hyung Won识别新范式并齐全丢弃任何漂浮老本的才干给我留下了深入的印象。2022年底,他看法到了强化学习的力气,并从那时起就不时在宣扬它。

在演讲中,Hyung Won还分享了:

上方奉演出讲关键内容。

看待AI:授人以鱼不如授人以渔

先便捷引见下 Hyung Won Chung ,从发布的o1背先人员名单来看,他属于 推理钻研的基础奉献者

资料显示,他是MIT博士 (方向为可再活泼力和动力系统) ,去年2月参与OpenAI担任钻研迷信家。

参与OpenAI之前,他在 Google Brain 担任大言语模型的预训练、指令微调、推理、多言语、训练基础设备等。

在谷歌上班时期,曾以一作身份,宣布了关于模型微调的论文。

回到正题。在MIT的演讲中,他首先提到:

在他看来,AI畛域正处于一次性 范式转变 ,即从传统的间接传授技艺转向处罚模型自我学习和开展通用技艺。

理由也很直观,AGI所蕴含的技艺太多了,无法逐一学习。

详细咋处罚呢??

他以 下一个token预测 为例,说明了这种 弱处罚结构 如何经过 大规模多义务学习 ,处罚模型学习处置数万亿个义务的通用技艺,而不是独自处置每个义务。

他观察到:

假设尝试以尽或许少的致力处置 数十个义务 ,那么 独自形式 识别每个义务或许是最便捷的;假设尝试处置 数万亿个义务 ,经过学习 通用技艺(例如言语、推理等) 或许会更容易处置它们。

对此他打了个比如,“授人以鱼不如授人以渔”,用一种基于处罚的方法来处置义务。

而后AI就会自己出去钓鱼,在此环节中,AI将学习其余技艺,例如耐烦、学习浏览天气、了解鱼等。

其中一些技艺是通用的,可以运行于其余义务。

面对这一“谆谆告诫”的环节,兴许有人以为 还不如间接教来得快

但在Hyung Won看来:

换句话说,面对有限的时期,人类兴许还要在专家 or 通才之间做选用,但关于机器来说,算力就能出奇观。

他又举例说明,《龙珠》里有一个设定:在不凡训练场合,角色能在外界觉得只是一天的时期内取得一年的修炼效果。

要素也妇孺皆知,大型通用模型能够经过大规模的训练和学习,极速顺应和把握新的义务和畛域,而不须要从头开局训练。

他还补充道,数据显示 计算才干大概每5年提高10倍

总结上去,Hyung Won以为**在于:

此外,他还以为存在,即人们正在试图 让AI学会像人类一样思索

但疑问是,咱们并不知道自己在是如何思索的。

在他看来,一个系统或算法过于依赖人为设定的规定和结构,那么它或许难以顺应新的、未预感的状况或数据。

形成的结果就是,面对更大规模或更复杂的疑问时,其扩展才干将会受限。

回忆AI过去70年的开展,他总结道:

与此同时,面对领先人们对scaling Law的质疑,即以为仅仅扩展计算规模或许被以为不够迷信或幽默。

Hyung Won的看法是:

举个例子,在机器学习中,一个模型或许在小数据集上体现良好,但是当数据量参与时,模型的性能或许会降低,或许训练时期会变得无法接受。

这时,或许须要改良算法,优化数据处置流程,或许扭转模型结构,以顺应更大的数据量和更复杂的义务。

也就是说,一旦识别出瓶颈,就须要经过翻新和改出去交流这些假定,以便模型或系统能够在更大的规模上有效运转。

训练VS推理:效果相似,推理老本却廉价1000亿倍

除了上述,o1另一**作者也分享了一个观念:

这象征着,在模型开发环节中,训练阶段的资源消耗十分渺小,而实践经常使用模型启动推理时的老本则相对较低。

有人以为这凸显了未来模型优化的后劲。

不过也有人对此持疑心态度,以为二者压根没法拿来对比。

对此,你怎样看?

© 版权声明
评论 抢沙发
加载中~
每日一言
不怕万人阻挡,只怕自己投降
Not afraid of people blocking, I'm afraid their surrender