KV-Cache占用分析[1]

优化方向**[1]**

根据公式总结有四类方式

#1 n_kv_heads:MQA/GQA通过减少KV的头数减少显存占用

#2 Length : 通过减少长度L, 以减少KV显存占用,如使用循环队列管理窗口KV

#3 K-bits: 从量化角度减少KV cache的宽度,如使用LLM-QAT进行量化

#4 KV-Cache的管理:从OS(操作系统)的内存管理角度,减少碎片,如Paged Attention

模型优化

#1 共用 KV cache [2]