KV-Cache计算量
2 x L x batch_size x [d x n_kv_heads] x Layers x k-bits根据公式总结有四类方式
#1 n_kv_heads:MQA/GQA通过减少KV的头数减少显存占用
#2 Length : 通过减少长度L, 以减少KV显存占用,如使用循环队列管理窗口KV
#3 K-bits: 从量化角度减少KV cache的宽度,如使用LLM-QAT进行量化
#4 KV-Cache的管理:从OS(操作系统)的内存管理角度,减少碎片,如Paged Attention