本文提出了一种名为“ Hypothetical Minds ”的模型,该模型结合了大言语模型和多自动体强化学习,经过在人造言语处置的框架下生成、评价和细化对于其余自动体战略的假定,来提高自动体在多自动体环境中的体现。该模型在 多种竞争性、协作性和混合动机 的多自动体环境中均显示出优越的性能,特意是在处置暗藏消息和战略推理方面。
Hypothetical Minds模型简介
1. 模型架构与组件
Hypothetical Minds模型是一个基于大型言语模型(LLM)的自主自动体,它经过整合感知、记忆和两级形象档次的档次化布局的模块化组件,来应答MARL中的应战。该模型的架构包含多个认知模块,如 感知模块、记忆系统以及实践心智(Theory of Mind, ToM)和子指标(Subgoal)模块,后两者区分担任输入上档次的指标和执行方案 。
2. 实践心智(Theory of Mind, ToM)模块的作用
ToM模块在Hypothetical Minds模型中表演着**角色,它经过生成对于其余自动体战略、指标和才干的假定来促成有效的协调或对策。这些假定是以人造言语方式表白的,并嵌入到上档次的布局环节中,以指点自动体的决策。 ToM模块不只生成假定,还担任评价和迭代细化这些假定,经过强化那些能够正确预测其余自动体行为的假定来优化决策环节 。此外,ToM模块还能够依据生成的假定灵活调整自动体的战略,以顺应推断出的其余自动体的战略,从而在多自动体环境中成功更高的鼓励和更好的顺应性。
模型成功:从假定生成到初级布局
1. 生成假定
在多自动体环境中,了解其余自动体的行为是至关关键的。Hypothetical Minds模型经过 其实践心智(Theory of Mind, ToM)模块来生成对于其余自动体战略、指标和才干的假定 。这些假定是基于人造言语生成的,使得自动体能够在不间接观察到这些变量的状况下,经过言语的形象层面启动推理。
2. 假定评价与细化
生成的假定须要经过实践的环境反应来评价其有效性。ToM模块会对每个假定启动评分,这一环节触及到 预测其余自动体的行为并将预测结果与实践行为启动对比 。有效的假定会在模型的记忆中失掉强化,而不准确的假定则会被调整或舍弃。这一环节是迭代的,随着更多的交互数据被积攒,假定的准确性逐渐提高。
3. 初级布局与执行
在假定验证经事先,ToM模块会应用这些验证过的假定来指点初级布局。这些初级布局不只包含战略的制订,还触及到详细执行的序列化,即如何将战略转化为一系列详细的、可执行的执行。这一环节中,自动体须要思考如何在坚持对指标的谋求的同时,顺应环境的变化和其余自动体的战略变化。
试验设计与基准测试
1. Melting Pot基准的多场景测试
Hypothetical Minds模型在Melting Pot多自动体强化学习基准中启动了宽泛的测试。这一基准包含多种不同的社会灵活和应战,如协作烹饪、剪刀石头布游戏等。经过这些多样化的测试场景,模型的顺应性、战略生成才干以及与其余自动体的交互成果失掉了片面的评价。
2. 与基线模型的比拟
Hypothetical Minds模型的性能与几个基线模型启动了比拟,包含传统的强化学习模型和其余基于LLM的自动体模型。经过这些比拟,钻研人员能够评价ToM模块在假定生成、评价和细化方面的成果,以及这些配置如何协助Hypothetical Minds模型在复杂多自动体环境中取得优秀的体现。这些比拟结果不只证实了模型的有效性,也突出了实践心智模块在处置复杂社会交互中的关键性。
试验结果与剖析
1. 竞争环境中的体现
在“Running With Scissors”(剪刀石头布)的竞争环境中,Hypothetical Minds(HM)模型展现出了清楚的长处。该环境要求两名玩家在地图上移动并搜集代表剪刀、石头、布的资源。经过与对手启动“交互”,一方将取得正向鼓励,而另一方则取得相应的负向鼓励。HM模型能够有效地推断对手的战略,并依据这些消息调整自己的战略,从而在少数状况下取得高于基线模型的鼓励。特意是在面对多变战略的对手时,HM经过其实践心智模块生成假定,并始终调整战略以顺应答手的变化,显示出较强的顺应性和战略洞察力。
2. 协作与混合动机环境的顺应性
在“Collaborative Cooking Asymmetric”环境中,两名玩家须要在厨房的两侧协作制造番茄汤。HM模型在一切测试场景中均体现优秀,尤其是在与配置性协作同伴互动时。这标明HM能够依据协作同伴的才干和行为有效地调整自己的执行战略,优化协作效率。此外,在“Prisoner's Dilemma”(囚徒困境)的混合动机环境中,HM在灵活协作同伴场景中体现尤为突出,能够经过更分歧的协作行为和适时的宽恕战略,有效地冲破恶性报复循环,成功更高的总体福利。
本文转载自,作者: