论文

<aside> 💡

优化QKV for循环顺序 ;

减少非乘法计算 ;

</aside>

Abstract [2]

Flash Attention 2Flash Attention 1加速2x, 计算效率达到GEMM性能的50~73%

改进[2]

改进[1]

总体来说,V2从以下三个方面做了改进: