KV-Cache占用分析[1]

KV-Cache计算量
- 2 x L x batch_size x [d x n_kv_heads] x Layers x k-bits

优化方向[1]

根据公式总结有四类方式

2 x Length x batch_size x [d x n_kv_heads] x Layers x k-bits x 内存模型

#1 n_kv_heads:MQA/GQA通过减少KV的头数减少显存占用

#2 Length : 通过减少长度L, 以减少KV显存占用，如使用循环队列管理窗口KV

#3 K-bits: 从量化角度减少KV cache的宽度，如使用LLM-QAT进行量化

#4 KV-Cache的管理：从OS(操作系统)的内存管理角度，减少碎片，如Paged Attention

模型优化

#1 共用 KV cache [2]

MQA，GQA