View on GitHub

LLM Dev Highlights

« Back to vLLM Reports

vLLM 开发动态报告 - 2026-01-26

时间窗口: 2026-01-26 11:01 (UTC+8) ~ 2026-01-27 11:01 (UTC+8) 数据统计: 新 Issue 20 | 关闭 Issue 21 | 新 PR 66 | 合并 PR 33 | 关闭未合并 PR 14


📊 每日开发状态摘要

在2026年1月26日至27日期间,vLLM社区保持高度活跃,共处理了41个Issue(新增20,关闭21)和66个PR(合并33)。开发重点集中在多模态模型支持扩展AMD ROCm平台功能增强与问题修复,以及核心性能优化(特别是针对Mamba SSM和MoE LoRA内核)。社区就连接器架构简化(NCCL Connector去留)和配置管理改进(环境变量弃用保护)进行了重要讨论,体现了对系统可维护性和用户体验的持续关注。

🎯 AMD/ROCm 生态相关动态

本周期内,AMD生态相关活动较为活跃,主要集中在问题修复和功能增强上。

  1. Issue #33123 - [Bug][ROCm]: Prefix caching produces different output on first request vs subsequent requests on gfx950
    • 描述:用户在AMD gfx950(MI300系列)GPU上发现,启用前缀缓存时,首次请求(缓存未命中)与后续请求(缓存命中)的输出不一致。这关联到一个在gfx950上失败的内部测试。
    • 技术影响:此问题直接影响了AMD MI300系列GPU上前缀缓存功能的正确性,可能导致生成结果不稳定。已CC多位AMD员工(@mawong-amd等)和vLLM ROCm维护者。
    • 状态:Open,正在调查中。
  2. PR #33112 - Fix IndexError with encoder-decoder models when using Custom Paged Attention
    • 描述:修复了在ROCm Attention(Custom Paged Attention)后端上运行编码器-解码器模型(如Whisper)时,因交叉注意力步骤中key/value为None而引发的IndexError
    • 技术影响:增强了ROCm Attention后端对编码器-解码器架构模型的兼容性,扩大了AMD平台可稳定运行的模型范围。
    • 状态:已合并。
  3. PR #33106 - [ROCm] Enabling forward_includes_kv_cache on ROCm MHA backends
    • 描述:为ROCm的多个Attention后端(RocmAiterUnifiedAttentionRocmAttentionTritonAttention)添加了对 forward_includes_kv_cache 特性的支持。
    • 技术影响:这是对统一CUDA/ROCm Attention API(#32335)工作的跟进,旨在提升AMD平台Attention实现的完整性和性能。
    • 状态:Open。
  4. PR #33077 - [BUGFIX] Fix hipErrorIllegalState in Qwen3-Omni during startup profiling
    • 描述:修复了在AMD ROCm上初始化Qwen3-Omni模型时,在内存性能分析阶段因torch.repeat_interleave操作触发hipErrorIllegalState导致崩溃的问题。解决方案是将涉及小张量的计算移至CPU。
    • 技术影响:解决了Qwen3-Omni这一重要多模态模型在AMD硬件上的启动障碍。
    • 状态:Open。提交者用户名为JartX,符合“xxx-amd”模式,很可能是AMD员工。

💬 高热度讨论分析

  1. Issue #33115 - [RFC]: Deprecate NCCL Connector?
    • 核心议题:提议弃用并移除NCCL连接器,以简化vLLM的连接器选项(目前有NIXL, Mooncake等)。
    • 不同观点
      • 提议方(@robertgshaw2-redhat):认为NCCL连接器用户不多且导致了不少Issue,简化选项集对用户更友好。
      • 原开发者(@Abatom):认为NCCL比NIXL更轻量,是用户体验预填充-解码(PD)分离功能的入口,并希望保留它以进行后续优化和功能支持。
    • 争议焦点:功能精简与向后兼容、轻量级选项保留之间的平衡。
    • 当前状态:讨论开放中,原开发者倾向于保留。
  2. Issue #33096 - [RFC]: Add protection against using deprecated or incorrect environment variables
    • 核心议题:提议为vLLM的大量环境变量增加验证和弃用警告机制,防止因环境变量更名、替换或废弃导致用户工作流在版本升级后静默失效。
    • 社区反响:获得广泛支持。核心维护者@robertgshaw2-redhat表示“强烈支持”,@simon-mo 支持但也强调需要停止添加更多环境变量。
    • 结论倾向:社区一致认为这是一个必要的改进,预计该RFC将推动实施。
  3. Issue #33091 / #33107 - Whisper accuracy issues with FA2+CG+torch.compile
    • 核心议题:用户报告Whisper模型在特定配置(FlashAttention-2 + CUDA Graph + torch.compile)下出现准确性严重下降(词错误率134%)的问题。
    • 讨论内容: issue #33107 被标记为 #33091 的重复。维护者请求用户测试更多组合(如关闭CUDA Graph、使用Dynamo+piecewise CUDA Graphs等)以定位问题根源。
    • 当前状态:问题根因仍在排查中,可能与FlashAttention版本、编译流水线的交互有关。

🔥 热门话题与趋势分析

  1. 多模态模型支持持续扩展
    • 新增FunAudioChat(音频→文本)模型支持(PR #33058)。
    • 新增Kimi-K2.5模型支持(PR #33131)。
    • GLM-OCR模型添加MTP(多令牌预测)支持(PR #33005)。
    • Step-VL模型增加关闭图像分块(img_patch)的配置选项,优化视频理解(PR #32923)。
  2. 性能优化与内核调优
    • Mamba SSM:新增针对Blackwell(B200)GPU的selective_state_update内核自动调优脚本和配置文件(PR #33084)。
    • LoRA MoE:优化Triton内核的索引和内存访问模式,提升性能(PR #32770)。
    • 通用优化:移除未使用的_moe_permute函数(PR #33108),优化DCP(解码上下文并行)张量分配(PR #33102)。
  3. 工具调用与格式解析
    • 出现了多个与工具调用解析相关的PR和Issue,例如修复JSON解析错误(PR #33085)、为MiniMax M2模型添加自定义工具模板以修复括号导致的崩溃(PR #33087)、以及为Qwen2.5-Coder模型新增专用工具解析器(PR #33083)。这反映出社区在完善不同模型API兼容性上的努力。

🛠️ 重点技术变更

  1. PR #33096 (RFC): 环境变量弃用保护机制:这是一个重要的用户体验改进提案。通过增加验证和警告,可以显著减少因版本升级导致的隐蔽性错误,提升vLLM在生产环境中的可维护性。
  2. PR #32873 / #33084: Mamba SSM内核性能调优:针对新一代Blackwell架构(B200)和Nemotron Nano模型进行深度优化,显示了vLLM紧跟硬件发展、持续挖掘性能潜力的能力。
  3. PR #33112: ROCm Attention后端编码器-解码器模型支持修复:虽然改动不大,但解决了AMD平台上运行Whisper等模型的关键障碍,对扩大vLLM在异构计算生态中的适用性有积极意义。
  4. PR #33126 / #33136: Journey事件追踪集成:这是一系列(共9个)关于集成OpenTelemetry追踪PR的一部分,旨在将请求生命周期事件直接发射到核心Span。这增强了系统的可观测性,为性能分析和调试提供了更强大的工具。

📈 开发活跃度观察

💡 值得关注的问题

  1. NCCL连接器的未来(Issue #33115):这是一个涉及架构简化和用户影响的决策。社区需要更多用户反馈来决定是否弃用。
  2. GPT OSS 20B作为草案模型时抛出错误(Issue #33133):在使用同模型进行推测解码(Speculative Decoding)时出现KV缓存组断言错误,这可能影响该性能优化功能的可用性。
  3. MoE模型FP8性能回退(Issue #33128):用户报告在较新版本vLLM上运行Qwen3 MoE模型的FP8版本时,性能相比旧版本显著下降。这需要核心团队关注,可能涉及DeepGEMM等核心算子的回归。
  4. Transformers 5.0升级(Issue #33132 & PR #33100):Hugging Face Transformers库发布5.0大版本。vLLM已开始更新测试注册表(PR #33100),但全面升级依赖项可能尚需时日,需关注兼容性。

📋 附录:详细数据列表

新增 Issue

已关闭 Issue

新增 PR

已合并 PR

关闭但未合并的 PR