View on GitHub

LLM Dev Highlights

« Back to vLLM Reports

vLLM 开发动态报告 - 2026-03-10

时间窗口: 2026-03-10 11:21 (UTC+8) ~ 2026-03-11 11:21 (UTC+8) 数据统计: 新 Issue 38 | 关闭 Issue 28 | 新 PR 115 | 合并 PR 34 | 关闭未合并 PR 42


📊 每日开发状态摘要

在3月10日至11日的周期内,vLLM社区保持高度活跃,共处理了38个新Issue和115个新PR。开发焦点集中在解决Qwen3.5等新兴混合架构(Mamba + Transformer)模型在生产中暴露的各类稳定性问题,特别是推测解码(MTP)与高并发场景下的崩溃。同时,AMD平台的支持持续得到增强,围绕ROCm生态的性能优化与bug修复是重要分支。

🎯 AMD/ROCm 生态相关动态

本周期AMD生态相关活动频繁,主要集中在性能优化、Bug修复和生态完善上。

  1. 性能优化与内核支持
    • PR #36659:为AMD Radeon AI PRO R9700 (gfx1201, RDNA4) 添加了调优后的FP8 MoE Triton配置,显著提升了Qwen3-FP8模型在该卡上的性能(TTFT降低~20%,TPOT降低~24%)。
    • PR #35719 (已合并):在ROCm平台上重新启用了sparse_mla注意力后端的CUDA Graph支持,以提升性能。
    • PR #36716:作为后续调优,暂时禁用了ROCm上RoPE自定义操作符,因发现其在某些配置下(如MI355)会导致性能回退。
    • PR #36680 / #36681:允许在ROCm的稀疏MLA(AITER)后端上使用大于1的MTP推测令牌数,扩展了功能支持。
  2. Bug修复与稳定性
    • Issue #35925 (已关闭):修复了在ROCm平台使用AITER内核时,因NaN传播导致的Qwen3.5模型输出损坏问题。PR #36709通过添加nan_to_num_()清理解决了此问题。
    • PR #36720:修复了ROCm/HIP平台上因CUDA Graph内存分析不准确导致的Worker启动OOM问题,通过跳过不可靠的估算来解决。
    • PR #36690:修复了AMD GPU上使用MLA注意力且KV缓存为FP8类型时的一个错误。
    • PR #36606:提高了Quark量化工具中W4A8等数据类型的解析鲁棒性。
  3. 生态建设与需求
    • Issue #36703 & #36704:用户请求为ROCm平台提供nightly版本的pip wheel和Docker镜像,认为这是成为“一等公民”支持的必要条件,反映出社区对AMD生态成熟度的更高期待。
    • PR #36711:修正了ROCm CI中GPT-OSS测试的路径错误。

小结:AMD贡献者(含-amd后缀用户)活跃,正在系统性地解决ROCm平台在运行最新模型(如Qwen3.5, DeepSeek-V3)时遇到的性能与正确性问题,并向完善开发者体验迈进。

💬 高热度讨论分析

  1. Issue #36613: Qwen3.5 MTP高并发下CUDA非法内存访问
    • 核心议题:Qwen3.5-397B模型启用MTP推测解码后,在高并发请求下发生CUDA Illegal Memory Access (ILM) 崩溃。
    • 不同观点
      • 问题报告者 (xiaochengyige, MLKoz2):提供了详细的重现步骤和日志,指出禁用MTP则一切正常,怀疑是推测解码引入的bug。
      • 维护者 (ZJY0516):建议测试main分支或nightly版本以确认是否已修复,并请求最小化重现脚本。
      • 社区成员 (mykolademyanov):从系统设计角度评论,认为此类问题常源于模型逻辑与执行环境的紧耦合,建议解耦。
      • 其他用户 (cjackal):指出此问题是另一个Issue的重复,并提供了简化的重现命令。
    • 争议焦点:无实质性争议,更多是协作定位问题。
    • 当前状态:问题未解决,讨论聚焦于如何更有效地重现和定位根本原因。
  2. Issue #36627: Qwen3.5 vs Qwen3 性能对比
    • 核心议题:用户观察到Qwen3.5的TTFT(首令牌时间)远慢于Qwen3,质疑其性能。
    • 不同观点
      • 提问者 (fangbaolei):认为性能下降显著,特别是TTFT。
      • 解释者 (ShanningZhuang, yunseoLee0343):指出Qwen3.5采用了Mamba/DeltaNet等混合架构,其循环计算特性导致Prefill阶段无法像Transformer那样完全并行,因此TTFT天生会更长。同时,具体实现中的内存操作(如torch.zeros)也可能加剧开销。
      • 建议者 (MLKoz2):建议尝试不同的注意力后端和预热策略。
    • 争议焦点:无争议,主要是对混合架构性能特性的科普和解释。
    • 当前状态:问题开放,结论是性能差异主要源于架构革新,属于预期内的权衡。
  3. Issue #36643: Qwen3.5 不支持流水线并行
    • 核心议题:尝试为Qwen3.5模型启用流水线并行(PP)时失败。
    • 不同观点与进展
      • 用户报告错误:启用PP和MTP时,提示“Pipeline parallelism is not supported”。
      • 深度分析 (weiguangli-io):通过代码审查给出了根本原因:当启用PP时,系统会检查模型是否支持PP。对于MTP推测解码,草稿模型会继承目标模型的PP配置。然而,专门为MTP创建的草稿模型类 Qwen3_5MoeMTP 并未声明支持PP协议(SupportsPP),因此触发错误。
    • 当前状态:问题未解决,但根本原因已被清晰定位,为后续修复指明了方向。
  4. PR #36666 / #36628: 关闭超时功能引发CI失败
    • 核心议题:一个用于优雅关闭服务器的PR (#34730, #36270) 导致了分布式测试(Distributed Tests (4 GPUs))的持续失败。
    • 讨论过程
      • PR #36628 直接撤销了该功能,使测试通过。
      • 随后,PR #36666 重新提交了该功能,并附带详细分析,认为测试失败可能与关闭过程中的时序或通信问题有关,而非功能本身逻辑错误。作者希望重新建立基线并进一步调查。
      • 讨论涉及了多个相关PR的合并历史和CI测试结果的梳理,体现了复杂项目中问题溯源的难度。
    • 争议焦点:如何在引入新功能与保持测试稳定性之间取得平衡。是彻底回退,还是坚持引入并修复测试?
    • 当前状态:回退版本已被合并,新版本正在讨论中,凸显了基础设施变更的谨慎性。

🔥 热门话题与趋势分析

  1. Qwen3.5混合架构的“阵痛期”:作为新模型架构,Qwen3.5在vLLM中集成后暴露了大量边界情况问题,成为本周期最热话题。问题涉及MTP崩溃(#36613)、性能疑惑(#36627)、流水线并行不支持(#36643)、前缀缓存验证错误(#36697)、GDN层Triton自动调优OOM(#36598)等,反映出对新架构的全面适配仍在进行中。
  2. 推测解码的稳定性与创新:除了MTP的问题,推测解码整体备受关注。一方面在修复问题(如PR #36634修复MTP启动错误),另一方面也在引入新方法(如PR #36733添加DFlash方法)。这反映了社区对提升推理速度技术的持续追求和攻坚。
  3. AMD生态的“查漏补缺”与“追求平等”:从修复NaN、OOM等底层Bug,到为新型号GPU(RDNA4)添加性能配置,再到用户呼吁提供与CUDA对等的nightly构建,显示出ROCm支持从“能用”到“好用、快用”的发展阶段。

🛠️ 重点技术变更

  1. PR #35219 (已合并): 修复混合模型KV缓存的NaN传播问题
    • 技术解读:解决了Qwen3.5等混合模型在共享KV缓存块时,因SSM(Mamba)层的fp32残留数据在后续被Attention(fp8/fp16)层复用,经“乘零掩码”操作后产生NaN,并污染所有后续请求的核心Bug。
    • 影响:彻底解决了因KV缓存污染导致的模型准确性随服务时间下降的问题,对生产环境稳定性至关重要。
  2. PR #36595 (已合并): 修复空分区合并导致的DeepSeek-V3错误
    • 技术解读:修复了在CUDA Graph编译过程中,一个将“仅包含空操作的分区”错误地合并到“切分算子子图”的逻辑Bug。此Bug会导致DeepSeek-V3等模型在编译后产生错误结果或CUDA Graph警告。
    • 影响:修复了影响模型正确性的一个关键编译层Bug,保障了使用编译优化的服务的可靠性。
  3. PR #36169 (已合并): 将gRPC服务器实现提取到独立包
    • 技术解读:将gRPC服务器代码从vLLM主仓库重构至独立的smg-grpc-servicer包中,主仓库仅保留启动入口。这实现了gRPC协议与vLLM核心的解耦
    • 影响:允许gRPC协议和服务器逻辑独立、快速迭代,无需与vLLM发布周期绑定,提高了架构的灵活性和可维护性。

📈 开发活跃度观察

💡 值得关注的问题

  1. Qwen3.5 MTP在高并发下的稳定性(Issue #36613):这是影响大规模部署的严重问题,根本原因尚不明确,需要社区重点关注和解决。
  2. 混合架构模型的前缀缓存支持(Issue #36697, PR #36649):当前混合模型的前缀缓存命中率极低,限制了其在多轮对话等场景的性能。相关优化工作(PR #36649)正在进行中,这是一个重要的性能提升方向。
  3. AMD平台Nightly构建的缺失(Issue #36703, #36704):用户的这一诉求合理,提供与CUDA对等的持续集成产物是提升AMD开发者体验和吸引力的重要一步。

📋 附录:详细数据列表

新增 Issue

已关闭 Issue

新增 PR

已合并 PR

关闭但未合并的 PR