View on GitHub

LLM Dev Highlights

« Back to vLLM Reports

vLLM 开发动态报告 - 2026-01-31

时间窗口: 2026-01-31 11:44 (UTC+8) ~ 2026-02-01 11:44 (UTC+8) 数据统计: 新 Issue 9 | 关闭 Issue 12 | 新 PR 27 | 合并 PR 36 | 关闭未合并 PR 7


📊 每日开发状态摘要

在本次观察窗口内,vLLM 项目保持了高活跃度,共合并了 36 个 PR,并新增了 27 个 PR,显示出持续的集成和开发节奏。核心关注点集中在 AMD/ROCm 生态的深度集成(特别是新的 ATOM 后端提案)、推测解码性能问题的修复与增强,以及围绕 KV 缓存量化(如 INT8 支持)和 多模态模型支持 的持续演进。工程优化,如编译时改进和内存管理,也是当日的重要主题。

🎯 AMD/ROCm 生态相关动态

本周期 AMD 生态相关活动非常活跃,包含架构提案、性能优化和问题修复:

  1. 新增 Issue [#33478]:引入 ATOM 作为 AMD GPU 的模型实现后端 (RFC)
    • 用户:zejunchen-zejun
    • 内容:正式提案将 ROCm 团队开发的 ATOM 库作为 vLLM 在 AMD GPU 上的一个高性能模型实现后端 (--model-impl atom)。ATOM 集成了 ROCm 的高性能算子库 aiter 和通信库 mori,旨在为 AMD GPU 提供更具竞争力的推理性能,同时平衡用户易用性与 ROCm 库的快速迭代。该提案已触发 ROCm 相关维护者的注意。
    • 影响:这是 AMD 生态在 vLLM 中的一个战略性步骤。若被接受,将为 AMD 平台提供一个官方维护的、深度优化的推理后端,与现有的 transformers 等后端并列,显著增强 vLLM 对 AMD 硬件的原生支持深度和性能表现。
  2. 新增 PR [#33493]:wvSplitKrc 的性能调优与用例扩展
    • 用户amd-hhashemi(AMD 员工)
    • 内容:针对 wvSplitKrc 进行性能调优,并扩展其支持的情况范围。PR 描述中提供了在 MI355 上的性能对比数据,显示在多个 (m, n) 配置下(特别是 n 较大时)获得了显著的性能提升(例如,从 4.42ms 降至 3.23ms)。
    • 影响:直接提升 AMD GPU 上特定计算模式的 kernel 性能。
  3. 新增 PR [#33463]:[ROCm][AITER] KV 缓存分割导致准确度大幅下降
    • 用户:dorhuri123
    • 内容:该 PR 旨在为 ROCm AITER 统一注意力后端适配 KV 缓存更新分离的修改。但测试表明,这一改动在 lm_eval 基准上导致了严重的准确度回归(例如,hellaswag 准确率从 0.60 降至 0.26),表明当前 ROCm AITER 路径尚不能安全支持 KV 缓存分割,可能缺少关键的元数据或更新操作。
    • 影响:这是一个重要的警示性 PR,揭示了在向新架构(KV 缓存分离)迁移时,AMD 后端可能存在的兼容性与正确性问题,需要优先解决。
  4. 已合并 PR [#32492]:为 qwen3-next 模型启用 aiter 注意力后端
    • 内容:修复了 ATOM 注意力后端对 Qwen3-Next 模型(使用非标准块大小 544)的支持问题。通过临时放宽块大小检查,使模型能够在 ATOM 后端上运行并通过了准确性测试。
    • 影响:扩大了 ATOM 后端支持的模型范围,提升了特定模型在 AMD 平台上的可用性。
  5. 其他相关
    • 已合并 PR [#33492]:更新 ROCm CI 中的 huggingface-hub 版本依赖,保持与主 CI 一致。
    • 已合并 PR [#33277]:在 ROCm CI 的 test_sharded_state_loader 测试中强制 max_num_seqs=1,以减少批处理方差导致的测试不稳定性。

小结:AMD 生态在本周期表现突出,从高层架构提案(ATOM)到底层 kernel 优化(wvSplitKrc)和问题修复(准确度回归)均有涉及,显示出 AMD 团队对 vLLM 投入的持续性和深度。

💬 高热度讨论分析

  1. 已关闭 Issue [#33091]:Whisper 模型在 FA2 + 完整 CUDA 图下的准确度问题
    • 核心议题:Whisper 模型在使用 FlashAttention-2 (FA2) 并结合完整 CUDA 图 (cudagraph_mode=FULL) 时,生成文本出现严重错误。
    • 观点与调试过程
      • 提出者与社区:提供了详尽的复现步骤,并确认 FA3 正常,FA2 异常。
      • 维护者 (@ProExpertProg):引导进行一系列测试,隔离问题 (-cc.cudagraph_mode=NONE 有效),最终定位到问题是 FA2 与完整 CUDA 图模式不兼容,而非 torch.compile 的问题。
      • 其他参与者:提供了在 A100、L4 等卡上的复现情况和工作区 (enforce-eager)。
    • 争议焦点:无实质争议,是一个协同调试过程。
    • 最终结论:问题根源是 FA2 内核在完整 CUDA 图捕获下不安全。已通过 PR [#33360] 修复,该修复确保了 CrossAttention 在构建元数据时使用正确的 max_seq_len
  2. 已关闭 Issue [#22808]:前缀缓存在大批次和大提示下速度更慢且偶尔输出乱码
    • 核心议题:多位用户报告在 A100 等显卡上,启用前缀缓存后,随着并发数或提示增大,吞吐量下降甚至产生错误输出。
    • 观点汇总
      • 用户们:分享了在 A100、A800、L20 上的相似遭遇,并指出关闭前缀缓存后恢复正常。
      • 维护者 (@robertgshaw2-redhat):初期怀疑是 FA2 内核问题,建议尝试 Triton 注意力。
      • 其他用户:测试证实切换为 FLASHINFER 注意力后端可以解决该问题。
    • 争议焦点:无明显争议,主要现象是多个用户确认同一问题,并找到了替代方案。
    • 状态:该 Issue 因超过 90 天无新活动被自动关闭。但根本原因可能尚未在主流后端(FA2/Triton)中解决,用户可参考使用 FLASHINFER 作为临时规避方案。
  3. 新增 Issue [#33480]:为 KV 缓存量化添加 INT8 支持(目前仅 FP8)
    • 核心议题:用户请求为 KV 缓存量化增加 INT8 支持,以惠及大量不支持 FP8 的旧硬件(如 A100、RTX 4090 等)。
    • 观点
      • 提出者:详细阐述了 INT8 的硬件普适性、内存效率和对成本敏感场景的重要性。
      • 社区开发者 (@drshvik):立即响应,表示愿意接手实现,并已提交 PR [#33495] 来完成配置层的验证支持。
    • 争议焦点:无争议,是一个得到积极响应的重要功能请求。
    • 当前状态:功能实施已启动。PR [#33495](已提交)添加了配置支持,为后续内核实现铺平道路。

🔥 热门话题与趋势分析

🛠️ 重点技术变更

  1. ATOM 后端 RFC (#33478):一个具有战略意义的提案。引入 ATOM 作为 AMD GPU 的专用后端,意味着 vLLM 可能将像拥抱 transformers 一样,深度集成来自硬件厂商的优化堆栈,为 AMD 平台带来潜在的显著性能提升和更好的长期维护性。
  2. KV 缓存 INT8 支持提案与启动 (#33480, #33495):从 FP8 扩展到 INT8 虽是小步,但意义重大。它直接回应了广大使用 Pascal、Ampere 等旧架构 GPU 用户的需求,降低了高性能推理的门槛,有助于 vLLM 在更广泛的部署场景中保持竞争力。
  3. Whisper FA2 + CUDA 图准确度修复 (#33360):该修复解决了特定模型(编码器-解码器架构)在特定优化配置下的兼容性问题。它提醒社区,性能优化(如图捕获)的推进需要细致地覆盖各种模型架构和内核组合,稳定性与性能同等重要。
  4. FlexAttention 项目关闭 (#19765):这个长期跟踪 Issue 因不活跃而关闭,标志着初期对 PyTorch FlexAttention 集成的探索告一段落。社区的发展重点可能已转向更成熟或性能更优的注意力后端(如 FlashInfer、AITER 等)。
  5. MoE 后端默认优先级调整 (#33490):此 PR 揭示了为不同硬件(Hopper vs Blackwell)和配置(是否启用专家并行)选择最优 MoE 内核的复杂性。它尝试通过调整后端选择器的优先级来优化默认性能,但深层问题在于需要一个更智能、基于性能数据的动态选择机制。

📈 开发活跃度观察

💡 值得关注的问题

  1. ATOM 后端的前景:RFC #33478 需要社区,特别是维护者的积极反馈。其设计理念、集成方式以及对现有代码库的影响值得深入讨论。
  2. KV 缓存 INT8 的完整实现:Issue #33480 已获得配置层支持,后续需要内核层的实现与集成。关注其进展和性能表现。
  3. 容器默认时区设置:Issue #33472 提议将容器默认时区从 America/Los_Angeles 改为 UTC。虽然是小改动,但关乎生产环境的最佳实践,预计会顺利采纳。
  4. DeepSeek-V3.2 推测解码问题:新开的 Issue #33497 报告了 deepseek_mtp 方法接受率低的问题。鉴于 DeepSeek-V3 系列模型的热度,此问题的排查和修复优先级可能较高。

📋 附录:详细数据列表

新增 Issue

已关闭 Issue

新增 PR

已合并 PR

关闭但未合并的 PR