由 DeepSeek 联合创始人梁文锋亲自挂名的研究团队发布了一篇新论文,提出了一种名为 NSA 的新型注意力机制,专为超快长上下文训练和推断设计,具有硬件对齐的特点。NSA 通过分层 token 建模减少计算量,并通过硬件对齐的系统和训练感知的设计实现高效的部署和端到端训练。实验表明,NSA 在多个评估中表现优异,与 Full Attention 相比,在解码、前向和后向阶段提供了显著的加速,且加速比随着序列长度的增加而增加。这项研究验证了分层稀疏注意力设计在平衡模型能力和计算效率方面的有效性。