假设经常使用切当,LLMLingua可以降落经常使用初级LLM的老本,并使更宽泛的用户和运行程序可以经常使用LLM。
像GPT-4和Claude这样的大型言语模型(LLM)可以经过良好的揭示工程学习新义务。但是,较长的揭示会参与经常使用这些模型的老本,并且还会减慢它们的运转速度。
LLMLingua是微软公司开发的一项新技术,经过消弭有关局部来紧缩揭示。值得留意的是,LLMLingua可以在不影响模型照应品质的状况下将揭示的规模紧缩高达20倍。假设经常使用切当,LLMLingua可以降落经常使用初级LLM的老本,并使更宽泛的用户和运行程序可以经常使用LLM。
揭示工程的老本
揭示工程是应用LLM启动实践运行的基石。诸如思想链、场景学习以及集成相关文档或历史对话等技术有助于增强特定义务的模型功能。但是,这些方法通常须要更长的揭示,有时或者到达数千个令牌。这或者会对经常使用初级模型的老本发生严重影响,尤其是像GPT-4这样老本高昂的LLM。
虽然有不同的方法来提升模型和降落老本,但一个钻研方向是应用人造言语固有的冗余来紧缩揭示。有些方法经过揭示调优来学习专门的令牌,以缩小推理时期所需的令牌数量。
但是,这些方法通常是特定于义务的,或者须要对整个模型启动微调,从而限度了它们的经常使用,并使它们与基于API的模型(例如ChatGPT)不兼容。
其余技术经常使用LLM来总结对话,以创立稀释的记忆和常识示意。但是,这些方法通常触及对LLM的屡次老本高昂的调用。
选用性场景是一种令人关注的方法,经常使用一个规模较小的言语模型来评价文本片段的消息量,摈弃消息较少的内容来紧缩揭示。微软公司的最新技术建设在这种方法的基础上,并对其启动了改良。
LLMLingua是一种翻新技术,它将揭示从粗粒度紧缩到细粒度级别。这种方法由几个局部组成。
第一个组成局部是“估算控制器”,它灵活地将不同的紧缩比调配给原始揭示的元素,例如指令、演示和疑问。基本准则是指令和疑问通常对生成的结果有更间接的影响,由于它们蕴含了LLM生成答案所需的基本常识。与其同样,当揭示蕴含多个演示时,消息或者是重复的。因此,估算控制器为指令和疑问调配更大的估算(象征着更小的紧缩比),同时为演示调配更小的估算。
LLMLingua经常使用较小的言语模型(如GPT-2或LLaMA)来治理这一调配。该模型计算每个演示的困惑度,作为文本与模型照应相关性的权衡规范。而后,LLMLingua优先思索具备最高困惑值的演示,将其归入揭示中,直到满足演示的令牌估算。剩下的估算用于完善指点和疑问。
LLMLingua的第二个组成局部是迭代令牌级揭示紧缩(ITPC)算法,它准许更细粒度的紧缩。迭代令牌级揭示紧缩(ITPC)首先对揭示启动分段,而后经常使用小模型确定这些分段之间的困惑度散布。接着,该算法结构一个紧缩揭示,该揭示保管具备高困惑度的令牌,经过思索令牌之间的条件依赖相关来确保保管关键消息。
第三个组成局部触及基于指令调优的方法,该方法同步大型和小型言语模型的散布形式。这个环节从一个预先训练好的小型言语模型开局,而后经常使用较大的LLM生成的数据对其启动微调。经过指令调优,小模型的行为与大模型的行为愈加分歧,增强了全体紧缩环节。
测试LLMLingua
在他们的试验中,钻研人员经常使用GPT-3.5 Turbo和Claude1.3作为重要LLM,并经常使用Alpaca-7B或GPT2-Alpaca成功紧缩义务。他们在各种基准测试中测试了LLMLingua,包括用于推理和场景学习的GSM8k和BBH,以及用于会话场景了解和摘要义务的ShareGPT和Arxiv-March23。
钻研人员在颁布的一份报告说:“在简直一切的试验中,咱们提出的方法一直以很大的长处优于先前的方法。”
在GSM8K和BBH的推理和场景学习基准测试中,LLMLingua不只取得了比全景(Full-shot)方法更高的结果,而且取得了5倍和3倍的清楚紧缩比。
钻研人员写道:“这很好地证实了咱们的紧缩揭示有效地保管了原始揭示中蕴含的推理消息。”
关于ShareGPT和Arxiv-March23上的场景了解基准,LLMLingua将揭示紧缩了9倍和3.3倍。这标明LLMLingua在紧缩初始揭示时保管了它们的语义完整性。此外,LLMLingua在准确性和紧缩水平上都优于其余揭示紧缩方法。在某些状况下,它在原始揭示符上成功了高达20倍的紧缩。
虽然触及多个步骤和两个模型的复杂性,LLMLingua设法成功了从1.7到5.7倍的减速,并且计算开支最小。
钻研人员总结说:“咱们的方法具备严重的实践意义,由于它不只降落了计算老本,而且为LLM中顺应更长的场景提供了一种潜在的处置打算。”
为了使LLMLingua获取更宽泛的驳回,微软公司经过一个易于经常使用的开源库提供了LLMLingua。开发人员可以经常使用这个库将LLMLingua集成到他们自己的运行程序中。
原文题目:Reduce the costs of GPT-4 with prompt compression,作者:Ben Dickson
链接: