嘉宾丨缪旭
采访/撰稿丨张洁
编辑丨诺亚
出品 | 技术栈(微信号:blog51cto)
有人说,如今大模型卷不动了,要卷就卷AI Agent。那么,理想真的如此吗?
AI Agent,望文生义即智能代理,是一种能够感知环境、启动决策和执执行作的智能体。而它作为一个概念真正走红,要从去年3月颁布的AutoGPT说起。
彼时,AutoGPT名目让人们发现——这种技术可以应用大言语模型,智能把一个大义务拆分红若干个小义务,并经常使用工具成功它们。
区别于主动响运行户指令的大模型,AI Agent具有自主规划和执行的才干。于是,自AutoGPT之后,GPT-Engineer、ChatDev、XAgent等名目次序迸发,将大模型推入了新的叙事阶段。原本作为“超级大脑”的大模型有了落地为“全能助手”的后劲。
随后的一年间,AI创投圈亲密关注相关守业公司。国际外大厂也纷繁开局聚焦AI Agent的框架、平台和运行开发。
到目前为止,AI Agent无疑是火了,但圈里圈外也多多少少都堕入了一种焦灼心情:大模型还没整明白,AI Agent又开局了…...
理想上,Agent目前尚处在在起步阶段。必定水平上,AI Agent才干其实是和大模型相生的,大模型的才干边界选择了AI Agent的才干边界。
那么,AI Agent究竟有何神奇之处?企业假设要部署AI Agent,须要做好哪些预备?它会成为大模型商业化的钥匙吗?
本期AIGC实战派特意约请九章云极DataCanvas AI首席迷信家缪旭,联合其关于智能体的行业观察和通常总结,就上述议题启动逐个讨论。
(为了行文表白的流利,在不扭转原意的状况下,对采访内容做了适当的文本梳理)
1.AI Agent洞察:飞跃传统AI,乘大模型西风而起
AIGC实战派:相较传统AI,AI Agent有何特意之处?
缪旭:这里的传统AI,我了解为是针对特定义务的人工智能模型、系统或通常,比如计算机视觉中的分类义务,回归模型中的期间序列预测,人造言语处置中的命名实体识别(NER)等等。可以看到,这类AI显著的特点是专注于特定义务:用途比拟专注,训练环节相对独立。就像一个一个烟囱,彼此之间也没有什么通用性。这是传统的义务导向的AI系统。
而如今AI Agent(或许说智能体)的概念,更多强调的是通用才干。可以说,Agent是附属于AGI的运行体系,其开展得益于大模型。其一,随着大言语模型的通用泛化才干的优化,AI Agent也因此进入了一个齐全不一样的开展图景。
其二,在多模态大模型的才干加持下,AI Agent能够了解视觉、听觉和文本消息,取得更片面的环境感知才干。有了这些消息之后,Agent的“角色”才会愈加精准。
其三,Agent其实有很强的自主性,像人一样,能够试错、学习和顺应。犯了错也会从中学习,进而改良其战略。这就是通用人工智能带来的好处和变动。
在有了这些才干之后,Agent就可以处置一些更为复杂的义务,这就在某种水平上逾越了繁多义务导向的传统AI。而且传统AI系统的“烟囱式”架构须要少量代码集成才干成功其落地,成功环节十分漫长。如今交由大模型或许Agent框架来做的话,极大地简化了这一环节,缩小了对编程才干的依赖,经常使用户可以更专注于业务自身的落地。所以这也是这波AI Agent带来的好处。
AIGC实战派:从实质上讲,AI Agent 与大模型的相关是什么?其实质区别是什么?
缪旭:实质区别的话,大模型在预训练阶段通经常常使用自回归方法,这象征着模型依赖于已有数据的散布来预测下一个token。这种方法触及到经常使用少量的数据样本,这些数据样本起源于先人的阅历和通常。在自回归训练中,数据被转换成语料,而后宰割成token。模型的义务是预测下一个token。自回归模型的才干受限于它所训练的数据。假设训练数据只蕴含了先人的阅历,那么模型的才干也或许仅限于此,难以逾越既有的知识。
而AI Agent则强调自主性和顺应性,它能够经过尝试不同的方法来探求、试错和学习,并依据不同的评价(取得鼓励或处罚)来优化自己的战略。也就是说,AI Agent经过联合强化学习等技术可以成功自我退化,有后劲成功愈加复杂和初级的认知义务。
假设从OpenAI的角度来看,他们实践上是宿愿整个Agent都可以用大模型来成功的。我觉得像GPT 4o即omni版本曾经十分像Agent的框架了。之前OpenAI 的坊间传说中无关于Q*算法的种种推测,实质上它就反映了OpenAI正试图经过Q*算法让大模型自身具有Agent的才干。
AIGC实战派:AI Agent会是成功AGI的关键钥匙吗?
缪旭:(AI Agent如Q*)会是十分关键的改良。就像出名 AI 学者、图灵奖得主 Yann LeCun所说,他不看好自回归LLM,自回归 LLM 受限于先人阅历,对潜无理想的了解有限,不足知识,没有记忆,而且不可规划答案。从这个层面来说,AI Agent仰仗其自主决策和自我退化的个性确实是更上了一层楼,但它终究是不是成功AGI的关键,还有待切磋。
理想上,从AlphaGo开局就遵照了这一学习门路。一开局AlphaGo学习专业棋谱,就像自回归一样,学习先人积攒的阅历,起初开局用强化学习的方法生成新棋路,经过自我对弈来逾越专业棋手。实践上这种训练方法也取得了成功。然而自身这个义务还是比拟像传统AI,是一个十分专注的义务。它的评价系统很便捷,你明白地知道它的胜负规则。评判规范是没有任何歧义的。
然而放眼AGI的话,它其实是十分开明的。你很难去评判的要素在于:第一,有很多未知畛域,人的知识边界实践上是有很大局限的。在很多事件上不可判别最终结果是好是坏;第二,评判受客观要素影响较大。评判规范的客观性容易造成不同价值观之间的抵触,假设一个智能体在训练时不可统筹价值观的多样性,其学习结果往往或许不尽善尽美,从而影响其在实践场景中的运行;第三,目前的AI智能体,虽然在某些畛域比自回归方法强,但并未齐全成功自主脱离人启动自我退化的目的。因此,从全体来看,要以智能体作为成功AGI的殊途同归还有相当的距离。
2.运行与应战:大模型场景落地,如何把握关键之钥
AIGC实战派:有人说,AI Agent或许是大模型在To B场景落地的一个关键形式,它将会开启大模型的下半场。您认同这一判别吗?
缪旭:我不太确定“下半场”的定义。然而我觉得,下一步,AI Agent会是比拟理想的一个迸发点。正如吴恩达传授所说,某些特定疑问,用Agent的方法去开发比用大言语模型自身得出的结果要好得多,AI智能体上班流或许比下一代基础模型带来更大的AI停顿。由于有时刻你经常使用的大言语模型或许不是那么强,要用这样的大模型间接出结果难度会比拟大,但经过Agent的方法,基于它的顺应性和试错才干,经过微和谐始终学习,很或许取得比大言语模型更优的处置打算。
比如,要训练一个像Sora一样的视频生成大模型会十分低廉,但我之前读过关于Mora的论文,Mora不是一个独自的模型,而是一个多Agents视频生成框架,联合多个初级视觉AI代理,复现了Sora的通用视频生成才干。从这个角度来说,我觉得,落地AI Agent比拟理想,也比拟经济,有时刻会更贴合落地场景的需求。
AIGC实战派:目前AI Agent开展现状如何,有哪些关键的运行场景呢?
缪旭:首先,纯文本的Agent如今是处于比拟卷的形态。再者,随着GPT-4o的产生,多模态大模型越发遭到关注。尤其是联合视觉消息,AI Agent将具有更强的多模态了解和决策才干,或许触发新的运行场景。
详细到运行畛域的话,Tesla的智能驾驶是很强且具有未来感的AI Agent运行案例,由于它是真正基于端到端的多模态大模型,从视觉入口,加之其余传感器,间接去驱动其驾驶的效应器。这与的基于大言语模型构建的智能代理具有相当的差距。
智能驾驶要求其Agent具有实时决策才干,还要有极强的泛化才干以应答各种复杂状况。其义务通常是mission critical,任何小失误都或许付出渺小代价。所以Agent必定能够处置少量corner case,顺应各种极其状况。因此,难度很大,应战很多,可以说Agent在智能驾驶乃至驾驶畛域有很多落地的构想空间。
另外,还有运行较多的畛域关键包括知识管家类、智能客服类、数据剖析类,还有办公智能化等,都有AI Agent施展的空间。
AIGC实战派:在构建AI Agent的环节中,或许会遇到哪些方面的应战?
缪旭:一方面,AI Agent须要能够了解和顺应特定行业的专业知识和业务逻辑,这或许须要额外的微和谐训练;另一方面,AI Agent须要提供人造和直观的交互形式,以及满足用户需求的体验,这或许须要深化了解用户行为和偏好。
假设是通用的办公类Agent,那或许会帮你省下不少期间,然而并不会带给你特意多的其余消息。但假设是构建非通用的、专业化的AI Agent,比如法律类的Agent,那你就必定具有十分强的法律知识。这里实践上会触及到很多专业畛域的疑问。如何联合你的专业知识,并最终取得较好的落地效果,我以为是一个十分大的应战。
还有比拟关键的一点是,要明白:人工智能去处置专业疑问,跟人去处置专业疑问有很大区别。虽然说AI可以代替一局部的专业才干,然而你要让一个专业人员去了解人工智能做的决策的话,必定尽或许预判到或许存在的交换阻碍。所以你做的这个智能体必定要让专业人员能够了解其角色,能够启动有效交互,进而协助专业人员来成功他的最终义务。
AIGC实战派:大模型自身迭代周期较长。假设在大模型自身才干不优化的状况下,为了让AI Agent取得比拟好的落地效果,可以思考采取哪些战略?
缪旭:首先,须要对专业的外在有深入的洞察,能够将义务合成为可由大模型追随执行的局部,做好规划(planning)上班;其次,准确的评价至关关键,只要好的反应才干找到优化的门路;此外,须要提供沙盒环境准许智能体极速试错,从而获取更优的结果。
3.部署与安保:企业抉择,从没有万能公式
AIGC实战派:企业如何评价阶段需不须要经常使用AI Agent?确定部署的话,须要做好哪些预备?
缪旭:无论是大模型厂商,还是AI基础设备厂商都在力推AI Agent,但实践上落地**还是在于用户。企业在选择能否经常使用Agent时,需思考其能否协助提高消费效率和开拓商业价值。
详细来说,首先须要深化开掘痛点,寻觅可以经过AI Agent处置的疑问。比如,企业老板观察到员工每天都要撰写少量简短重复的报告。经过经常使用 Agent来辅佐写报告,可以节俭少量人力资源。而且Agent能够24小时上班不会疲劳。从这个角度来看,在相似场景下,AI Agent的落地对企业的投入产出比是有增益的。同时,常年来看,招思考产业更新目的,规划AI Agent关于减速智能化进程,取得久远效益是有协助的。
确定部署Agent之后,在前期预备方面,企业须要搜集足够多的历史数据,尤其是在垂直行业,须要构建针对专业需求的Agent时,这一点十分关键。只要做好数据方面的预备,才干防止前期搜集数据与部署Agent的期间抵触,更好更快地成功Agent的效果。
AIGC实战派:AI Agent的企业部署老本如何,对中小公司能否友好?
缪旭:目前来说,基建老本和训练老本较高,耗时也长。然而置信随着通常的深化,配件的改善,以及算法的优化,它的老本会极速地降低。
不过关于中小企业来说,现阶段或许还是不可承当部署AI Agent的老本,这种状况下可以思考经常使用通用的大模型服务。由于不论如何,大模型厂商会摊派老本,但危险就是你须要把数据交由大模型厂商来包全,当你真正收获AI Agent的成绩,商业价值开局浮现时,再思考私有化部署也是一条前途。
AIGC实战派:在部署AI Agent时如何保证安保性?
缪旭:安保其实是一个比拟复杂的疑问。部署AI Agent时,首先要留意的是大模型自身的安保性。为了尽或许优化牢靠性,须要经常使用RAG、一些特定验证、前期测试等种种手腕来降低大模型“幻觉”的影响。再者,要留意合规要求,部署时要合乎法律与政策规则。此外,还触及业务安保疑问,例如不足对专业流程的深化了解或许造成异常操作。用户或开发者须要从业务角度登程,测试并包全AI Agent的安保个性,防止产生潜在的安保破绽。
四.评价与前景:普通人入局,需深耕细分畛域精准发力
AIGC实战派:如何评价一个AI Agent的成功?
缪旭:用户介入度(Engagement)实践上是一个十分关键的目的。便捷来说,就是用户能否频繁地经常使用AI Agent,以及他们与Agent的交互频率和深度。假设用户活期前往经常使用Agent,这通常象征着Agent提供了价值。当然这一点通常与业务强相关,不同业务需求有不同的评价规范。
通常关于普通性的Agent,咱们会有一些通用目的,这些目的有助于判别一个AI Agent能否成功到达实践消费规范。比如:
AIGC实战派:假设普通人想进入AI Agent赛道,您有哪些倡导?
缪旭:我觉得疑问关键在于深化开掘某一专业畛域的知识。我并不介绍你尝试通用工具,由于假设没有弱小的基础设备支持,提供服务将变得十分艰巨。大企业从天而降的一次性改造就有或许把你筹谋许久的商业形式给推翻了,所以我倡导聚焦于某个专业畛域,哪怕是一个十分细分的垂直市场,你也可以用AI Agent+something的形式来构建自己的“护城河”。
本文转载自 技术栈