当天咱们引见一篇论文《REACT: Synergizing Reasoning and Acting in Language Models》,它是来自谷歌钻研院和普林斯顿大学的一组钻研人员在探求了在言语模型中联合推理和行为的后劲后颁布的结果。只管大型言语模型(LLM)推理(思想链揭示)和执行(执行方案生成)的才干曾经作为独自的主题启动了钻研,但这是第一次性将这两种才干组合到一个系统中。所以我感觉这是一篇关键的论文,由于ReAct框架准许虚构代理经常使用诸如衔接到web和SQL数据库之类的工具,所以可以提供简直有限的扩展。
人类智能的特点是将以义务为导向的执行和关于下一步执行的推理无缝联合。这种才干使咱们能够极速学习新义务并做出牢靠的选择,而且可以顺应无法预感的状况。ReAct的目的就是在言语模型中复制这种协同作用,使它们能够以交织的方式生成推理步骤和特定于义务的操作。
ReAct揭示大型言语模型为给定义务生成行动推理历史步骤和操作。这些揭示由大批的高低文示例组成,这些示例指点模型的思索和操作生成。上方的图中给出了一个高低文示例。这些例子疏导代理阅历一个循环环节:发生一个想法,采取一个执行,而后观察执行的结果。经过联合推理跟踪和操作,ReAct准许模型执执行态推理,这样可以生成初级方案,还可以与外部环境交互以搜集额外的消息。
钻研人员将ReAct运行于多种言语推理和决策义务,包含疑问回答、理想验证、基于文本的游戏和网页导航。结果是十分好的,ReAct在可解释性和可信任性方面一直优于其余最先进的基线。
在问答和理想验证义务中,ReAct经过与便捷的Wikipedia API交互,克制了推理中广泛存在的幻觉和失误流传疑问。它生成了相似人类的处置义务的步骤,比没有推理痕迹的基线更容易解释。在交互式决策基准中,ReAct的体现清楚优于模拟和强化学习方法,即使只要一两个高低文示例。
只管推理、执行和观察步骤交织在一同提高了ReAct的接地性和可信度,但这种结构也解放降落了其制订推理步骤的灵敏性,造成在某些义务上的推理失误率高于思想链揭示。
钻研人员还启动了消融试验,了解在不同义务中推理和执行的关键性。他们发现,ReAct的外部推理和外部行为的联合一直优于专一于推理或独自执行的基线。这突出了整合这两个环节的价值,以取得更有效的决策。
只管ReAct曾经显示出很好的结果,但仍有改良的空间。钻研人员倡导扩展ReAct的规模,以训练和操作更多的义务,并将其与强化学习等互补范例联合起来。此外还可以经常使用更多的人工注释数据对模型启动微调可以进一步提高它们的性能。
ReAct在开发更智能、更通用的AI系统方面向前迈进了一步,并且它也支持Langchain库中一些十分有用的代理配置。经过在言语模型中联合推理和行为,曾经证实了在一系列义务中的性能提高,以及增强的可解释性和可信度。随着人工智能的不时开展,推理和行为的整合将在发明更有才干和顺应性的人工智能系统方面施展关键作用。