等 LLM KV 的最新上班 Cache 6 PyramidInfer 和 MiniCache 种优化

等 LLM KV 的最新上班 Cache 6 PyramidInfer 和 MiniCache 种优化

一、背景在LLM推理中,经常会驳回KVCache来缓存之前Token的两边结果,以清楚缩小重复计算,从而降落自回归生成中的提前,但是,KVCache的大小与序列长度成正比,在解决长序列时会面临极大的应战,尤其许多模型开局允许几百K甚至几M的......
萌子哥 11-15
485 320 874