View on GitHub

LLM Dev Highlights

« Back to vLLM Reports

vLLM 开发动态报告 - 2026-03-19

时间窗口: 2026-03-19 11:26 (UTC+8) ~ 2026-03-20 11:26 (UTC+8) 数据统计: 新 Issue 25 | 关闭 Issue 22 | 新 PR 100 | 合并 PR 55 | 关闭未合并 PR 24


📊 每日开发状态摘要

在2026年3月19日至20日这个周期内,vLLM 项目保持了极高的开发活跃度,新增了100个PR并合并了55个。开发重点集中在性能优化、Bug修复以及对AMD ROCm生态的持续增强上。社区报告了多个与GLM-4.7-FP8、Qwen3.5等热门模型相关的关键Bug,而AMD团队的贡献者则迅速响应并解决了若干ROCm平台上的核心问题。

🎯 AMD/ROCm 生态相关动态

本周期AMD生态相关活动非常活跃,主要体现在Bug修复、性能优化和新功能支持上。

1. 关键Bug修复:

2. 性能与功能优化:

3. 新功能/集成:

总结:AMD团队在本周期表现非常积极,不仅快速响应用户问题,还持续在内存管理、内核性能、专家并行等深水区进行优化和修复,显著提升了vLLM在ROCm平台上的稳定性和性能。

💬 高热度讨论分析

本周期未出现评论量极高的“爆款”讨论,但以下几个议题的交流具有代表性:

1. Issue #37590: HTTP连接静默断开问题

2. PR #37522: 关于旧环境兼容性的讨论

3. Issue #28572 (已关闭): 多GPU设备兼容性问题

🔥 热门话题与趋势分析

  1. Bug报告集中在CUDA非法内存访问与MLA:多个Issue报告了cudaErrorIllegalAddress崩溃,涉及场景包括:更改max-num-batched-tokens、启用吞吐量模式、使用MTP推测解码等。这些通常与底层内核或内存管理在特定边界条件下的缺陷有关。同时,关于MLA注意力后端选择失败的报告也出现了。
  2. GLM-4.7-FP8模型问题凸显:用户 Xarbirus 连续提交了多个与zai-org/GLM-4.7-FP8模型相关的崩溃Bug,涉及不同配置参数,表明该模型在vLLM中的支持可能还存在稳定性问题,是当前测试和修复的热点。
  3. Qwen3.5模型支持持续完善:围绕Qwen3.5模型的讨论和修复很多,包括多GPU初始化错误、工具解析器支持、GatedDeltaNet层的Marlin量化兼容性修复等,说明该系列模型被广泛使用,其复杂结构(如MoE、GDN)对推理引擎提出了高要求。
  4. MoE(混合专家)性能与正确性:无论是ROCm还是CUDA平台,都有关于MoE性能回归(如图模式慢于非MTP)和内核Bug(如FlashInfer TRTLLM monolithic内核路由错误导致零准确率)的讨论,反映了MoE推理仍是技术难点和优化重点。

🛠️ 重点技术变更

  1. PR #37606: [ROCm][Bugfix] fix cache block size mismatch for aiter unified attention
    • 技术解读:修复了ROCm AITER统一注意力后端缓存块大小配置不一致的底层逻辑。统一注意力需要64的块大小以获得最佳性能,但通过--attention-config参数设置时,配置更新顺序导致仍使用了默认的16。
    • 影响:确保了该后端性能的稳定性,避免了由此引发的编译失败,提升了用户体验。
  2. PR #37539: [Performance] Remove unnecessary zero-fill of MLA decode output tensor in Aiter backend
    • 技术解读:将MLA解码输出张量的初始化从torch.zeros改为torch.empty。由于后续AITER内核会无条件覆盖整个张量,前置的零填充是冗余的GPU内核操作。
    • 影响:为每个解码步骤的每个层都减少了一次vectorized_elementwise内核启动,直接降低了MLA模型在ROCm平台上的解码延迟,是典型的低级性能优化。
  3. PR #37533: [ROCm] fix sleep mode not releasing GPU memory problem on ROCm
    • 技术解读:揭示了HIP运行时hipMemRelease在虚拟地址保留期间不会释放物理VRAM的底层行为差异。通过强制循环执行地址释放与重新保留,绕过了驱动限制。
    • 影响:解决了ROCm平台上睡眠模式“假释放”内存的问题,使GPU内存能被其他应用(如RL训练框架)真正复用,提升了系统资源利用率。
  4. PR #36056 (已合并): [Bugfix] Fix Deepseekv32 tool parser when stream interval > 1
    • 技术解读:重构了DeepSeek-V3.2工具调用解析器的流式处理逻辑。旧版采用复杂的状态机逐字符解析,在stream_interval > 1时会导致标签解析错误。新版改为缓冲令牌直至获取完整DSML块后一次性解析。
    • 影响:从根本上解决了流式返回间隔较大时工具调用解析出错的问题,提升了DeepSeek-V3.2模型流式输出的可靠性。

📈 开发活跃度观察

💡 值得关注的问题

  1. GLM-4.7-FP8的稳定性问题:多个独立的Issue报告了该模型在不同配置下的CUDA非法内存访问崩溃(#37587, #37598, #37599, #37570)。这可能需要核心开发者进行系统性排查,看是否是某个特定内核或内存管理策略与该模型不兼容。
  2. Qwen3.5多GPU初始化错误:Issue #37623报告了Qwen3.5-122B-A10B-FP8在多GPU(TP=2)初始化时失败,错误提示Device does not support multicasting,可能与FlashInfer allreduce融合工作空间的创建有关,影响大规模模型部署。
  3. FlashInfer TRTLLM MoE后端路由Bug:Issue #37591和PR #37605揭露了FlashInfer TRTLLM monolithic MoE内核在处理全负路由logits时,会错误地选择专家,导致Qwen3.5 FP8模型输出完全错误(0%准确率)。该问题已通过临时禁用问题路由方法得到缓解,但根本性修复需等待上游更新。
  4. CPU后端KV缓存块归零崩溃:PR #37550报告并修复了CPU后端因调用GPU Triton归零内核而导致的崩溃,这提醒我们在为多后端项目添加新功能时,需充分考虑所有后端的兼容性。

📋 附录:详细数据列表

新增 Issue

已关闭 Issue

新增 PR

已合并 PR

关闭但未合并的 PR