📄 Vortex: Efficient and Programmable Sparse Attention Serving for AI Agents

#大语言模型

8.9/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0.9/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5

🔥 8.9/10 | 前25% | #大语言模型 | #大语言模型 | arxiv

👥 作者与机构

Zhuoming Chen, Xinrui Zhong, Qilong Feng, Ranajoy Sadhukhan, Yang Zhou, Michael Qizhe Shieh, Zhihao Jia, Beidi Chen Carnegie Mellon University, Rice University, Singapore National University

💡 毒舌点评

这篇文章很好地指出了一个实际痛点：做稀疏注意力研究的和用系统部署的人之间存在鸿沟，AI智能体想帮忙也插不上手。Vortex试图当这个桥梁，提供一个“傻瓜式”编程接口（vFlow）和一个处理底层复杂内存布局的“管家”（vTensor）。想法是好的，结果也展示了不错的加速比。但本质上，这更像一个精心设计的工程集成框架，而非一个提出全新注意力计算范式的理论突破。核心创新在于“抽象与集成”，让AI和人类更容易“玩”已知的稀疏注意力积木，而不是发明新的积木。对于期待看到深刻算法洞见的读者，可能会略感失望。

📌 核心摘要

针对部署和评估新稀疏注意力算法在LLM推理服务中工程复杂、迭代缓慢的问题，本文提出了Vortex系统。该系统由前端语言vFlow、张量抽象vTensor和高效执行后端组成。vFlow允许用户以组合、模块化的方式表达稀疏注意力算法的两阶段流程（查询无关的缓存阶段和查询相关的索引阶段）。vTensor抽象了底层的分页非连续内存布局，使用户可以像操作连续张量一样编程。系统与SGLang等现有服务框架集成，实现了高效的执行。评估表明，Vortex能够使AI智能体和人类研究者快速原型设计、部署和评估多种稀疏注意力算法，在多项基准测试上实现了显著的吞吐量提升和延迟降低，验证了其在加速稀疏注意力设计与迭代方面的有效性。

🔗 开源详情

代码：https://github.com/Infini-AI-Lab/vortex_torch
模型权重：论文中未提及
数据集：论文中未提及
Demo：论文中未提及
复现材料：论文提供了AI代理（Agent）提交算法的模板，包括调度策略、跳过的层、块大小、页大小、KV缓存数据类型和稀疏注意力文件配置。具体配置示例见论文附录的Listing 2。
论文中引用的开源项目：
- vLLM：通常指代 https://github.com/vllm-project/vllm
- SGLang：通常指代 https://github.com/sgl-project/sglang
- FlashInfer：通常指代 https://github.com/flashinfer-ai/flashinfer
- FlashAttention：通常指代 https://github.com/Dao-AILab/flash-attention
- FlexAttention：论文中未提供具体链接。
- TensorRT-LLM：通常指代 https://github.com/NVIDIA/TensorRT-LLM
- Double Sparse, Quest, H2O, NSA：论文中未提供具体链接。
- Qwen3, DeepSeek, GLM, MiniMax-M2.7, Claude Code, Codex/GPT-5：论文中未提供具体项目主页链接。

🏗️ 方法概述和架构

Vortex系统旨在提供一个可编程且高效的框架，用于快速原型设计、部署和评估用于LLM服务的稀疏注意力算法。其核心架构包含三个主要部分：前端语言vFlow、张量抽象vTensor和执行后端。

编程模型：vFlow：这是一个嵌入在Python中的前端语言。其核心设计是将稀疏注意力算法分解为两个自然且计算特征不同的阶段：
- 查询无关的缓存阶段 (forward_cache)：在此阶段，算法仅依赖于键值缓存（KV Cache），预先计算每块（block）的摘要信息（如块级键向量均值 c["centroids"]）。这些计算只需在缓存构建时执行一次，并可在后续解码步骤中重复使用。
- 查询相关的索引阶段 (forward_indexer)：在此阶段，算法基于当前查询向量q和缓存阶段预计算的摘要信息，动态计算每个块的相关性分数，选择出最重要的块（例如通过Top-K操作），并仅在这些块上执行注意力计算以生成输出。vFlow提供了简洁的、逻辑上连续的张量视图（例如将c["centroids"]视为形状为[1, B, d]的张量），屏蔽了底层物理布局的复杂性，让用户能专注于算法逻辑。通过组合一组基本的张量算子（如GeMM, Mean, TopK, Softmax），vFlow可以表达多种已知的动态稀疏注意力算法（如Block Top-K, Double Sparse, Quest, H2O）。
张量抽象：vTensor：这是Vortex的核心后端抽象，用于处理LLM服务系统中普遍存在的非连续、分页（paged）的KV缓存内存布局。vTensor在标准PyTorch张量的基础上扩展了布局元数据C=(b, p, I)，其中b是批大小，p是序列级偏移指针数组，I是映射到物理页索引的结构。vTensor算子的设计遵循两个原则：
- 组合性：复杂算法通过组合基本算子构建，而非依赖于整体式（monolithic）的内核，提高了模块化和可移植性。
- 自包含性：算子的输出格式可直接被后续算子消费，避免了中间结果的非必要物化或布局转换，从而实现高效的算子链。 vTensor编译器会自动进行内核综合和算子融合（见后文优化），并将逻辑上连续的张量视图正确映射到物理上的分页布局。
执行优化与后端集成：为确保高性能，Vortex集成了多项优化：
- 工作负载规划与内核融合：在每次解码迭代开始时，根据批大小和序列长度规划执行。基于计算模式使用不同的执行模板（如针对Softmax/Top-K的专用内核，针对GeMM/归约的统一分块模板），并将计算表示为有向无环图（DAG），对共享兼容模板的算子进行贪婪融合，以减少中间内存访问和流量。
- 随机化Top-K优化：针对索引阶段成为瓶颈的Radix Top-K算子，引入了随机提前终止策略。该策略是一种有损变体，以牺牲少量精确性为代价，收集足够高置信度的候选者后提前终止，并从阈值箱中随机采样剩余元素，显著降低了性能对分数分布的敏感性，提供精度与速度的可调折衷。
- 注意力后端兼容性：Vortex不重新实现注意力计算，而是复用现有高度优化的后端。对于分组查询注意力（GQA），支持FlashInfer和TensorRT-LLM的trtllm_mha后端；对于多头潜在注意力（MLA），支持trtllm_mla后端。此外，Vortex还开发了自定义的cuda_mla解码内核，以支持更灵活的潜在几何形状和更细粒度的块大小（小至16），从而与稀疏预算匹配。这种设计继承了现有后端的精度支持（如fp8 KV缓存和权重），并确保了与分页注意力、前缀缓存等关键服务组件的兼容性。

整个系统的数据流是：用户在vFlow中编写稀疏注意力算法 -> Vortex解释器将其编译为vTensor算子序列 -> vTensor编译器和运行时执行工作负载规划、内核融合与优化 -> 高效利用分页内存布局执行计算，并将结果无缝集成回如SGLang的主服务流程中。

💡 核心创新点

可编程的稀疏注意力抽象：提出了vFlow前端语言，通过将算法自然分解为“缓存”和“索引”两阶段，并提供逻辑连续的张量视图，极大地简化了在现代分页内存服务系统中表达复杂稀疏注意力逻辑的难度，提升了可编程性和组合性。
分页感知的张量系统：设计了vTensor抽象及其算子体系，通过扩展PyTorch张量以包含布局元数据，系统性地解决了在非连续分页内存上执行张量计算的挑战，实现了与现有服务系统的无缝集成。
赋能AI智能体的研究闭环：将Vortex作为基础设施，展示了其如何赋能AI智能体（如Claude Code, Codex）自主地生成、评估和迭代优化稀疏注意力算法，形成了从算法提议到大规模验证的自动化研究流程，显著加速了设计探索。
高效且兼容的后端执行：通过工作负载规划、内核融合、随机Top-K优化以及复用/扩展现有注意力后端（包括自定义MLA内核），确保了用vFlow表达的算法能高效执行，且兼容GQA/MLA等不同注意力机制和分页、前缀缓存等服务特性。

📊 实验结果

论文进行了全面的实验评估，主要回答两个问题：Vortex是否有助于创新和迭代稀疏注意力算法？Vortex是否使稀疏注意力在部署中真正更快？

AI智能体驱动的研究：
- 算法创新性：让Claude Code和Codex一次性生成各20个稀疏注意力算法。评估显示，这些算法具有高结构多样性，并在RULER、AMC23、AIME24基准测试上保持了稠密注意力级别的精度，同时实现了最高3.1倍的吞吐量提升。
- 算法迭代优化：通过一个18小时的自主优化循环，Claude Code在Qwen3-1.7B模型上对AIME24任务进行优化，最终算法实现了最高3.46倍的吞吐量提升（38.96 vs 38.54 accuracy, 11894 vs 3437 tok/s），同时保持了准确率。尽管最终算法收敛于Block Top-K等已知机制，但过程探索了多种组合。
MLA架构支持：在GLM-4.7-Flash（采用MLA）上，设计了一个感知RoPE的Block-Sparse流。该流在保持精度（mean@16: 0.752 vs 0.765）的同时，实现了最高4.7倍的端到端加速。实验还揭示了MLA路由中RoPE位置成分的关键作用。
服务器吞吐量评估：
- Qwen3系列（0.6B-8B）：在AIME24基准测试上，Block Top-K和Quest相比SGLang全注意力，在5pp精度预算内实现了最高3.60倍和2.98倍的吞吐量提升。
- MiniMax-M2.7（229B MoE）：在4张NVIDIA B200 GPU上（TP=4），Block Top-K在保持或略微提升精度（0.84 vs 0.83 mean@16）的前提下，实现了最高1.37倍的吞吐量提升（4110 vs 3341 tok/s）。
用户延迟评估：在16K输入长度、8.0 req/s的高请求率下，Block Top-K和Quest将P95 TPOT（每输出token时间）分别降低了最高11.7倍和12.8倍。
效率分析与消融：
- 内核分析：替换为稀疏注意力后，解码块延迟显著压缩。在32k上下文、BS=16下，Block Top-K实现3.78-4.81倍端到端加速。内核级分析显示，稀疏注意力内核比稠密内核快超过30倍，而Vortex引入的索引和缓存管理开销可忽略不计。
- Top-K优化：提出的approx_radix_topk + remap内核在recall@k>0.97下，平均比基线Radix Top-K快1.49倍（1.30-1.62倍），且在不同分数分布（双峰、正态、对数正态、均匀）下表现稳定。

⚖️ 评分理由

创新性 (1.6/2)：问题重要且定义清晰，针对稀疏注意力研究与系统部署脱节的痛点。方法创新在于提出了系统层面的可编程抽象（vFlow/vTensor）与集成方案，有效桥接了研究与部署。然而，该工作并未提出全新的稀疏注意力计算范式或数学理论，更多是将已知算法置于一个更优的系统框架中表达和执行，原创性略显不足。
技术严谨性 (1.3/1.5)：vFlow和vTensor的设计有清晰的描述和形式化定义（如vTensor的元数据C和算子语义），技术细节扎实。内核融合、随机Top-K等优化有具体分析。但论文在理论深度上贡献有限，例如对vFlow表达能力的上界或vTensor抽象的开销缺乏更深入的形式化分析。
实验充分性 (1.8/2)：实验非常全面，覆盖了从AI智能体生成到大规模模型（229B）部署的多维度评估，包括精度、吞吐量、延迟，并进行了内核剖析和消融研究。实验设置合理，对比基线（SGLang full attention）明确。不足是评估主要集中在英文推理任务（AMC, AIME），对其他类型任务或语言覆盖不足。
清晰度 (1.4/1.5)：论文写作清晰，结构合理。图表（如Figure 1, 14, 17）有效地辅助了理解。方法章节对vFlow、vTensor和优化技术的解释较为详尽。部分技术细节（如vTensor的布局传播规则）需参考附录。
影响力 (0.6/1)：对于LLM推理系统社区，该工作提供了有价值的工具和范例，可能加速相关研究。然而，其核心贡献（稀疏注意力系统优化）与语音、音乐、音频等特定应用领域的直接关联性较弱。对于该领域的读者，技术转移的路径不明确，因此影响力有限。
开源 (0.9/1.0)：论文提供了开源代码仓库（vortex_torch）和详细的文档链接，支持复现核心工作。
可复现性 (0.8/1.0)：提供了代码、AI代理提交算法的模板（附录Listing 2）以及具体的配置示例。实验环境和设置描述清晰（如GPU型号、模型版本）。对于复现论文中的核心结果提供了充分信息。
工程/实践价值 (1.5/1.5)：工程实践价值极高。系统直接解决了现有服务系统中集成新稀疏注意力算法工程量大、迭代慢的实际问题，提供了从编程到部署的一站式解决方案，并证明了其在真实大规模模型上的有效性，对产业界和��术界的LLM部署有直接借鉴意义。

🚨 局限与问题

范围局限性：论文明确指出Vortex目前仅优化解码（decoding）阶段的稀疏注意力，忽略了预填充（prefill）阶段。然而，对于许多应用（如长上下文理解），预填充的开销也至关重要，这一局限限制了其端到端场景的适用性。同样，不支持训练阶段也使其无法用于研究训练时的动态稀疏注意力。
算法创新的深度不足：论文最大的亮点是展示了AI智能体能利用Vortex生成和优化算法，但最终生成的“最佳”算法仍收敛到Block Top-K等已知方法的组合或调优。这暗示当前AI智能体或框架本身可能更擅长“优化”而非“发明”根本性的新机制。论文也承认“发现根本上更好的稀疏注意力算法仍是一个开放挑战”。
评估的特定性：主要评估基于特定的模型架构（如Qwen3, MiniMax）和英文数学推理任务（AMC, AIME）。在其他语言模型（如中文模型）、不同任务类型（如文本生成、摘要、翻译）或更通用的多模态场景下的泛化能力有待进一步验证。
对依赖组件的假设：Vortex的高效执行依赖于复用现有的优化注意力后端（FlashInfer, TensorRT-LLM）。如果这些后端更新或出现不兼容，可能需要额外维护。自定义cuda_mla内核虽然解决了特定问题，但也增加了系统的维护负担。
“可编程性”的边界：vFlow提供了高级抽象，但其算子集（Table 1）是固定的。如果研究者想要实验一种vFlow算子库中不存在的新颖计算原语（如非常规的归约或激活操作），可能仍需要扩展vFlow和vTensor本身，这带来了一定的僵化性。
与SOTA方法的对比：论文主要对比基线是SGLang的全注意力。虽然提到了Quest等算法，但在与专门针对稀疏注意力优化的其他最新系统（如LServe, SparseServe）对比时，数据有限。这使得难以全面评估Vortex相对于其他SOTA系统方案的综合优势。

📷 论文图片

← 返回 2026-06-05 语音/音乐/音频论文速递

📄 Vortex: Efficient and Programmable Sparse Attention Serving for AI Agents#

👥 作者与机构#

💡 毒舌点评#

📌 核心摘要#

🔗 开源详情#

🏗️ 方法概述和架构#

💡 核心创新点#

📊 实验结果#

⚖️ 评分理由#

🚨 局限与问题#

📷 论文图片#

📎 相关论文