FlashAttention简析
FlashAttention 由斯坦福大学和纽约州立大学布法罗分校的研究人员提出,它是一种优化 Transformer 自注意力计算的算法,通过减少 GPU 内存访问提高计算效率,加速训练并支持更长序列处理。本文为对该算法的简单介绍分析。
FlashAttention 由斯坦福大学和纽约州立大学布法罗分校的研究人员提出,它是一种优化 Transformer 自注意力计算的算法,通过减少 GPU 内存访问提高计算效率,加速训练并支持更长序列处理。本文为对该算法的简单介绍分析。
LeetCode刷题记录(技巧篇),个人向。
LeetCode刷题记录(动态规划篇),个人向。
LeetCode刷题记录(贪心算法篇),个人向。
LeetCode刷题记录(二分查找篇),个人向。
LeetCode刷题记录(回溯篇),个人向。
LeetCode刷题记录(图论篇),个人向。
之后为了提高效率,转而以Hot 100作为刷题蓝图。
这次我们来解析一下PowerInfer主要所使用到的算子是如何实现的。
上篇文章概括了PowerInfer的模型加载过程,这次我们来看一看推理时的流程。
LeetCode刷题记录(二叉树篇),个人向。
这部分涉及频繁的指针操作,因此专精C++来做题。