GPT-4、Llama等开闭大模型经过预训练的方式将海量数据积攒成一个庞大的常识库,再经过文本问答的方式为用户生成各种内容。但这种方法仅局限于训练数据集,为了扩展输入范畴准许模型经过检索额外的数据来丰盛生成内容,RAG(常识检索增强)成为了必备配置之一。
RAG也有一个清楚的缺陷,就是随着高低文消息量的参与,模型的解码期间清楚延伸 ,重大影响用户失掉答案的效率。
所以,阿姆斯特丹大学、昆士兰大学和NAVER试验室的钻研人员联结颁布了翻新紧缩方法COCOM(Context COmpression Model)。
论文地址:
在传统的RAG模型中,为了生成一个准确的答案,系统须要思考少量的高低文消息。这些消息或者来自多个文档,每个文档都蕴含了对生成答案或者有用的消息。
不过将这些长文本间接输入到大模型中会造成解码期间清楚参与,由于模型须要解决更多的输入数据,消耗的算力和推理期间也就更多。
COCOM经常使用了一种翻新的高低文紧缩技术,将长文本高低文转换成一组紧凑的高低文嵌入 。这些嵌入能够捕捉原始文本的关键消息,并以一种更高效的方式提供应大模型,能够在缩小模型输入大小的同时,坚持优化生成内容的品质。
COCOM还经常使用了一个转换器,协助大模型对输入的高低文启动分词解决,将其转换成一系列的标志。而后,这些标志被输入到一个紧缩模型中,并担任将这些标志转换成一组高低文嵌入。
在紧缩模型的训练环节中,钻研者们驳回了两种重要的预训练义务: 自编码和基于高低文嵌入的言语建模。自编码义务的指标是训练模型将高低文嵌入重构回原始的输入文本,这有助于模型学习如何有效地紧缩和解压高低文消息。
而基于高低文嵌入的言语建模义务则是训练模型依据紧缩后的嵌入生成文本的下一局部,这有助于模型学习如何应用高低文嵌入中的消息。
值得一提的是,COCOM的紧缩率十分灵敏可以调理,经过调整紧缩率参数协助开发人员在缩小解码期间和坚持答案品质之间找到一个平衡点。
例如,一个较低的紧缩率或者会生成更多的嵌入,从而保管更多的高低文消息,但同时也会稍微参与解码期间。同样,一个较高的紧缩率会缩小生成的嵌入数量,从而放慢解码效率,但或者会就义一些生成答案的品质。
此外,COCOM还能够解决多个高低文的状况。在常识密集型义务中,理论须要从多个文档中提敞开息以生成答案。 COCOM能够独立地紧缩每个文档的高低文,并将生成的嵌入向量作为一组提供应大模型 ,这种方法能协助模型在解决多个高低文时仍坚持高效率。
钻研人员在Natural Questions、MS MARCO、HotpotQA测试平台中评价了COCOM,并与现有AutoCompressor、xRAG、ICAE等紧缩方法启动比拟,COCOM的效率能优化5.69倍,内存缩小1.27倍。
原文链接: