大模型缓存机制与 KV Cache 深度解析
一、大模型服务的缓存机制全景
目前主流大模型服务的缓存机制从底层到上层可以分为三个层次。
KV Cache(推理层) 是最底层的机制。Transformer 自回归生成时,每生成一个新 token 都需要 attend 到之前所有 token。KV Cache 把已经计算过的 Key/Value 张量缓存在显存中,避免逐步重复计算,是所有现代 Transformer 推理系统的基础设施。
Prompt Cache / Prefix Cache(跨请求层) 是 KV Cache 的”跨请求复用”。[……]