一、什么是 AI Agent?
1、用快思索与慢思索类比大模型的才干
依据丹尼尔·卡尼曼的著述《思索,快与慢》,人类的思想可以分为两大系统:系统1和系统2。系统1担任直觉式的极速思索,这种思索往往是无看法的;而系统2则长于启动无看法的逻辑推理和被动控制。
在讨论大型模型的思想才干时,咱们首先可以观察到,这些大模型或许具有了相似人类的剖析疑问才干,它们能够了解、剖析和处置复杂疑问。进一步地,人类与生物的一个关键区别在于人类长于发明和经常使用工具。随着大模型认知才干的始终优化,当它们遇到自身不长于的畛域时,这些大模型或许会展现出一种相似于人脑经常使用工具的才干——即寻觅并应用适当的工具来处置疑问,而不是间接依托自身才干去处置。
2、OpenAI 对 AIAgent 的定义
在2023年6月,Open AI 的运行钻研主管 Lilian Weng发 表了《LLM Powered Autonomous Agents》一文,其中她提出了一个公式:“智能体=大模型(LLMs)+布局(Planning)+记忆(Memory)+工具经常使用(Tools)”。
1)智能体的推理与执行才干,指的是应用大模型(LLMs)来了解、执行并回忆义务。这包括将复杂义务合成为更小、更易治理的子义务以提高效率,并且经过吸取历史阅历和失误经验来优化执行的品质。
2)智能体具有短期与常年记忆配置:短期记忆经过应用揭示(Prompt)中的消息和高低文数据启动学习,而常年记忆则经过外部向量存储和极速检索技术来成功,这使得智能体能够在更宽泛的期间跨度内存储和回想(通常上有限)消息。
3)智能体具有调用外部 API 来经常使用“工具”的才干,这包括阅读网页、启动运行程序、读写文件、启动支付甚至操控用户设施等。与传统的智能化工具不同,AI智能体能够在未知和无法预测的新环境中有效上班。
4)在Open AI 的定义基础上,还应补充智能体的反应接受才干。正如人类在处置复杂义务时须要与环境互动,咱们的行为会扭转环境,环境也会给予咱们反应,咱们依据这些反应启动决策。因此,智能体应该能够依据采取的执行接纳侧面或试错性的反应、阶段性成绩或鼓励,并据此启动下一轮的布局和执行。
3、AI Agent 更宽泛的定义
在 AI Agent 的全体架构设计中,普通可以将框架划分为五个关键模块:感知、定义、记忆、布局和执行。
二、AI Agent 的关键才干因素
1、记忆才干
目前的钻研普遍将记忆分为短期记忆和常年记忆两大类。
2、布局才干
布局是 AI Agent 处置复杂疑问的关键才干,关键包括子指标合成、反思和提炼等。
3、执行才干
智能体的执行才干关键体如今文本输入、工具经常使用和具身举措等方面。
4、缩小幻觉
缩小幻觉关键依赖于基础模型的提高和 Scaling Law,同时也有工程方法可以缩小现有模型的幻觉。
三、AI Agent 开展的三个阶段
1、AI Agent 才干的三个开展阶段
1) Embedding 嵌入式形式:这一阶段关键依赖于人类问答,提供消息和倡导,这是目前最普遍的大模型(LLM)运行方式。
2) Copilot 辅佐驾驶形式:在这一阶段,Agent 基于人类设定的指标,成功繁多或便捷义务。
3) Agent 智能体形式:智能体在这一阶段能够基于人类的指标,执行多义务、复杂义务或义务组合。
2、ChatGPT 代表了第一阶段的大模型才干。
它并不齐全合乎 Agent 的典型定义,关键向用户提供宽泛的环球常识。
3、目前,繁多义务场景下已有一些AI 运行实例
在办公场景中,咱们有 Microsoft 365 Copilot(及其新推出的团体版 Copilot Pro)、Google Duet AI、专一于轻文档办公的 Notion AI、辅佐代码开发的 Copilot X 以及数据剖析处置的 Deepnote AI 等。这些运行经常出现的配置包括起草文档、内容汇总、提供公式倡导等,它们通常以侧边栏或对话框的方式产生,协助用户智能调用上班空间中的文件和消息,并启动处置生成。
4、展望未来,AI Agent 将不只仅局限于处置疑问的执行层面,而是将进一步深化到如何处置疑问的布局层面。
在上班场景中,咱们对 AI Agent 的等候包括:
1) 延续执行:Agent 能够对用户的义务指令启动拆解,合成为多个步骤,对这些步骤启动布局排序并延续执行。
2) 成功复杂义务:目前 Agent 只能处置单个或少数便捷义务,未来希冀能够处置多个复杂义务。
3) 多步骤布局:Agent 在执行后续步骤的同时,能够坚持对义务指标和前序义务的记忆,具有弱小的步骤布局执行才干。
原文链接: