AllenY's blog

FlashAttention简析

2025-02-15 5 min read # System for AI # Technical Sharing

FlashAttention 由斯坦福大学和纽约州立大学布法罗分校的研究人员提出，它是一种优化 Transformer 自注意力计算的算法，通过减少 GPU 内存访问提高计算效率，加速训练并支持更长序列处理。本文为对该算法的简单介绍分析。

2024-12-18 6 min read # LeetCode

LeetCode刷题记录（技巧篇），个人向。

2024-11-30 22 min read # LeetCode

LeetCode刷题记录（动态规划篇），个人向。

2024-11-23 7 min read # LeetCode

LeetCode刷题记录（贪心算法篇），个人向。

2024-11-12 11 min read # LeetCode

LeetCode刷题记录（二分查找篇），个人向。

2024-10-31 14 min read # LeetCode

LeetCode刷题记录（回溯篇），个人向。

2024-10-28 7 min read # LeetCode

LeetCode刷题记录（图论篇），个人向。
之后为了提高效率，转而以Hot 100作为刷题蓝图。

2024-09-29 32 min read # System for AI # Technical Sharing

这次我们来解析一下PowerInfer主要所使用到的算子是如何实现的。

2024-09-25 25 min read # System for AI # Technical Sharing

上篇文章概括了PowerInfer的模型加载过程，这次我们来看一看推理时的流程。

2024-09-25 36 min read # LeetCode

LeetCode刷题记录（二叉树篇），个人向。
这部分涉及频繁的指针操作，因此专精C++来做题。