View on GitHub

LLM Dev Highlights

« Back to vLLM Reports

vLLM 开发动态报告 - 2026-02-16

时间窗口: 2026-02-16 11:30 (UTC+8) ~ 2026-02-17 11:30 (UTC+8) 数据统计: 新 Issue 16 | 关闭 Issue 15 | 新 PR 52 | 合并 PR 30 | 关闭未合并 PR 15


📊 每日开发状态摘要

在过去的24小时内,vLLM 项目保持了高活跃度的开发节奏,共处理了31个Issue,新增并合并了多个PR。开发焦点集中在模型支持优化(特别是 Qwen 系列)、推测解码的稳定性修复AMD ROCm 平台的兼容性与性能提升,以及持续集成(CI)系统的完善上。多个核心性能优化与bug修复被合并入主线,显示出项目在提升推理引擎的鲁棒性、扩展性和跨平台支持方面持续投入。

🎯 AMD/ROCm 生态相关动态

本周期内,AMD 生态相关活动非常活跃,主要集中在问题修复和功能增强上。

  1. 新增Issue (关键问题):
    • [#34641] [ROCm] Default VLLM_ROCM_USE_AITER_FP4BMM=True crashes on MI300X (gfx942):一个影响广泛的重大 bug。VLLM_ROCM_USE_AITER_FP4BMM 环境变量默认对 AMD GPU 启用,但仅 MI325X/MI350X (gfx950) 支持 FP4,导致大部分 MI300X 用户在默认配置下崩溃。贡献者 khairulkabir1661 清晰指出了根因并提供了临时解决方案。AMD 员工 tjtanaa 迅速响应,表示将很快提供修复。
  2. 新增PR (问题修复与功能开发):
    • [#34647] [ROCm] Add hardware detection for FP4 BMM to prevent MI300X crashes:由 Issue #34641 的提交者 khairulkabir1661 提出的修复方案。通过在 is_fp4bmm_enabled() 方法中查询 AITER 库的硬件能力,自动在 MI300X 上禁用 FP4 并回退到 FP8,从根本上解决问题。
    • [#34632] [ROCm] Add MXFP4 inline dequant Triton kernel for RDNA4/gfx12:由 AMD 员工 laudney 提交,为 RDNA4/gfx12 硬件(不支持 tl.dot_scaled)新增一个 Triton 内核,实现了 OCP MX FP4 e2m1f 量化模型的支持。这是一个重要的平台功能扩展。
    • [#34655] [CI][AMD][BugFix] Skip tests…:由 AMD 员工 rasmith 提交,修复 CI 问题,跳过 ROCm 平台上不应运行的测试。
    • [#34630] [Bugfix][ROCm] Fix WNA16 MoE quant config init…:由 AMD 员工 laudney 提交,修复了 WNA16 MoE 量化路径的初始化问题和 Qwen3-VL 模型配置读取的兼容性问题。
    • [#34636] [ROCm][Bugfix]: Only save unpadded sizes…:修复了由于 PR #32344 引入的回归问题,该问题导致 ROCm 上的 RMSNorm+padding 融合模式匹配失败。
    • [#34631] [ROCm] Make Whisper causal attention backend-agnostic:移除 Whisper 模型中注意力后端支持的硬编码列表,使其能适配更多 ROCm 后端。
    • [#34652] [AMD][CI] Fix test new_weight_syncing/rlhf.py:修复 AMD CI 中一个分布式测试因 torch.cuda.get_device_capability 调用时机不当导致的失败。
  3. 已合并PR (功能与CI改进):
    • [#34639] [CI] Enable mypy import following for vllm/v1/kv_offload:优化类型检查。
    • [#34589] [ROCm][CI] Fix plugins test group…:修复 TerraTorch 插件测试的依赖问题。
    • [#34629] Targeting the MI355 agent pool…:将测试任务扩展到新的 MI355 代理池。

总结:AMD 团队在本周期内表现非常活跃,不仅快速响应并修复了影响用户体验的关键崩溃问题(#34641/#34647),还在持续扩展平台功能(#34632),并积极维护 CI 测试的稳定性和覆盖度。这体现了对 AMD 平台用户体验和开发者体验的重视。

💬 高热度讨论分析

  1. Issue [#34619] [Bug]: Qwen3.5. illegal memory access
    • 核心议题:用户在 B200 GPU 上运行 Qwen3.5 模型时遇到非法内存访问错误,且怀疑与异步调度和 CUDA 图有关。
    • 观点与立场
      • 提交者 vadiklyutiy 提供了详细的复现环境和日志,并指出禁用 --no-async-scheduling 可以规避问题。
      • 核心开发者 ZJY0516 推测与近期更改的 GDN 后端和异步调度有关。
      • 开发者 ywang96 进一步将问题定位到 causal_conv1d Triton 内核对 PAD_SLOT_ID 的处理上,并确认在 enforce-eager 模式下运行正常。
    • 争议焦点:无显著争议,属于协作排查根因的过程。
    • 当前状态:问题已定位到具体内核,开发者正在调查修复中。
  2. Issue [#34601] [Feature]: LoRA-based Routing
    • 核心议题:提议实现基于 LoRA 适配器的请求路由和热交换功能,以在有限 GPU 资源上动态服务多个适配器。
    • 观点与立场
      • 提议者 yeoshuheng 描述了动态加载和切换 LoRA 适配器的愿景。
      • 参与者 arandomcreatoron 表达了兴趣并指出了潜在挑战:内存开销、CUDA 图捕获的复杂性,并建议配合选择性卸载逻辑。
      • 另一位参与者 jeejeelee 建议参考 vLLM 生态中的 aibrix 项目,暗示可能存在相关解决方案。
    • 争议焦点:无直接争议,主要是对技术可行性和实现复杂度的探讨。讨论更倾向于探索性而非立即实施。
    • 当前状态:开放式讨论,尚无明确实施计划。
  3. Issue [#34650] Bug: Speculative Decoding (MTP) Causes </think> Detection Failure…
    • 核心议题:在使用推测解码(MTP)、推理解析器和结构化输出时,存在一个时序不匹配的 bug,导致 </think> 令牌被静默忽略,从而无法正确执行 JSON 模式约束。
    • 观点与立场:提交者 cicirori 提供了极其详尽的技术分析,包括根因定位、具体示例和修复建议。另一位贡献者 Chryseisliu 表示有兴趣接手处理。
    • 争议焦点:无争议,属于一个清晰的技术缺陷报告。
    • 当前状态:问题开放,有待修复。

🔥 热门话题与趋势分析

  1. 模型兼容性与稳定性(尤以 Qwen 系列为甚):多个 Issue 涉及 Qwen 系列模型(包括 MoE、VL、Next 版本),问题涵盖非法内存访问、性能回归、语法错误和推理解析器失效等。这表明随着 Qwen 模型家族的复杂化和新版本的快速迭代,vLLM 的适配和优化工作需要持续跟进。
  2. 推测解码的“边缘”问题:除了上述讨论热烈的 #34650,还有 Issue 报告了 Eagle 推测解码在升级 vLLM 版本后出现的属性错误 (#34607)。推测解码作为性能加速的关键特性,其与各种新功能(结构化输出、多模态、模型升级)的交互稳定性成为测试和修复的重点。
  3. CUDA 图与编译的复杂性:有 Issue 报告了 SharedStorageConnector 在 Blackwell GPU 上的断言错误 (#34634),以及 torch.compile 相关配置的构造耗时问题 (#34635)。随着对极致性能的追求和硬件架构的更新,底层编译和图形化执行的复杂性日益凸显。
  4. CI/CD 与测试稳定性:大量 PR 和 Issue(包括已关闭的)涉及 CI 测试的修复、跳过和稳定性提升(如 #34637, #34622, #34617, #34666)。这反映了在庞大且快速变化的代码库和异构硬件环境下,维持 CI 管线的可靠运行本身就是一项重要且持续的工作。
  5. AMD 平台集成深化:如前述,本周期 AMD 相关的活动不仅限于 bug 修复,更包括为新硬件(RDNA4)添加内核支持,显示了其生态建设的深入。

🛠️ 重点技术变更

  1. PR [#33960] [Core] Pipeline Parallel support for Model Runner V2 (已合并):这是一个架构演进的重要里程碑。该 PR 为下一代模型执行器(Model Runner V2)引入了流水线并行(PP)支持,通过模块化的 PPHandler 类封装所有 PP 逻辑,保持了代码的清晰性。测试表明其性能与 V1 基线相当,为未来优化奠定了基础。
  2. PR [#34492] [Models] Fuse Qwen3.5 GDN‘s qkvz_proj and ba_proj (已合并):针对 Qwen3.5 模型的性能优化。通过融合其 Gated Dense Network (GDN) 中的两个投影层,减少了内核启动和内存操作,在基准测试中带来了可观的吞吐量提升,是模型特定优化的典型例子。
  3. PR [#34632] [ROCm] Add MXFP4 inline dequant Triton kernel for RDNA4/gfx12 (新增):这项技术扩展允许在缺乏特定硬件指令的 AMD RDNA4 架构上高效运行 MXFP4 量化模型。其“two half-dots”策略和内核内反量化设计,展示了针对特定硬件约束进行定制化内核开发的能力。
  4. PR [#34507] [Bugfix] Fix fused MoE int32 overflow… (已合并):修复了一个在特定大矩阵参数下可能导致整数溢出崩溃的边界情况。该修复巧妙地仅将必要的偏移量转换为 int64,避免了将所有步幅参数改为 int64 带来的性能回归,体现了对性能与稳定性之间平衡的精细考量。
  5. PR [#34666] & [#34667] [Model Runner V2] Minor cleanup… (已合并):核心开发者 WoosukKwon 对 Model Runner V2 的 PP 实现和 make_dummy 函数进行了代码清理和优化,消除了不必要的 CPU-GPU 同步,反映了对新一代执行器代码质量的持续打磨。

📈 开发活跃度观察

💡 值得关注的问题

  1. AMD 硬件支持与兼容性:MI300X 上 FP4 默认启用导致的崩溃问题(#34641)影响面广,其修复方案(#34647)的进展和合并需要密切关注。
  2. 推测解码与结构化输出的交互:Issue #34650 揭示了一个较为隐蔽但影响推理正确性的 bug。推测解码与复杂输出控制逻辑的交互测试需要加强。
  3. Qwen 模型家族的稳定性:近期连续出现多个与 Qwen 模型相关的严重问题(内存访问、性能),建议团队系统性回顾对 Qwen 系列(特别是 MoE 和 VL 变体)的集成与优化代码,建立更完善的测试矩阵。
  4. CUDA 图捕获与编译的复杂性:随着 torch.compile 和 CUDA Graph 的广泛应用,其带来的启动延迟、内存泄漏(如 #34602)和硬件特定问题(如 #34634)将成为运维和调试的难点,需要积累更多最佳实践和诊断工具。

📋 附录:详细数据列表

新增 Issue

已关闭 Issue

新增 PR

已合并 PR

关闭但未合并的 PR