五天前阿里巴巴的 Qwen 团队悄然发布了一款新的开源 MoE混合专家模型Qwen3.6–35B-A3B—— 总参数量 350 亿但每次前向传播仅激活30 亿参数。它可以免费下载能在 16GB 的 Mac Mini 上运行。而几乎没人公开提及的是在 SWE-bench Verified 基准测试中它的得分达到了73.4%。Google 的同类开源 MoE 模型Gemma 4 26B A4B在相同基准上的得分是52.0%。差距高达 21 个百分点。在智能体编程这个最关键的基准上激活参数更小的模型反而大获全胜。反直觉之处在于Gemma 4 26B A4B 每个 token 激活40 亿参数而 Qwen3.6–35B-A3B 仅激活30 亿。计算量更小的模型却在编程基准测试中碾压对手。我花了 48 小时在 MacBook Pro M3 Max64GB上并排运行这两款模型。以下是完整分析 —— 涵盖所有基准测试、解释差距的架构差异、5 分钟内即可运行的复制粘贴命令以及关于你该用哪款的坦诚建议。1、测试环境这是两款 2026 年旗舰模型截然不同的架构。两款模型都在 2026 年 4 月发布都采用 Apache 2.0 开源权重都是为本地运行设计的稀疏 MoE。从纸面参数看它们属于同一类别 —— “总参数量低于 400 亿、激活参数低于 50 亿的开发者向 MoE 模型”。但它们的架构完全不同。Gemma 4 26B A4B2026 年 4 月 2 日发布是纯 Transformer MoE。每一层都是标准的 softmax 注意力后接 MoE 层。Google 的设计理念是沿用 Gemma 3 的密集架构将前馈层替换为专家网络让 top-k 路由决定每个 token 激活哪 40 亿参数。简洁、传统、经过验证。Qwen3.6–35B-A3B2026 年 4 月 14 日发布则更为独特。它采用重复的 10 块结构每块包含三个Gated DeltaNet→ MoE实例后接一个Gated Attention→ MoE实例。这意味着 75% 的注意力计算由一种名为 Gated DeltaNet 的线性注意力变体完成只有 25% 使用传统 softmax 注意力并配合分组查询注意力 GQA。Gated DeltaNet —— 最初在 2024 年的论文《Gated Delta Networks: Improving Mamba2 with Delta Rule》中提出 —— 用随序列长度线性扩展的循环状态更新替代了二次复杂度的 softmax 注意力。它更接近 RNN 而非 Transformer包含两个可学习的门控α衰减门控控制记忆重置速度和 β更新门控控制新输入对状态的修改强度。理论上这种设计的权衡是在长上下文上节省大量计算但会损失一些全局建模能力因为所有信息都必须通过固定大小的记忆瓶颈。然而如下文所示实际结果并不像是做出了什么妥协。2、规格参数表以下是两款模型的并排对比 —— 所有关键规格一览---------------------------------------------------------------------------- | Spec | Gemma 4 26B A4B | Qwen3.6-35B-A3B | | Company | Google DeepMind | Alibaba (Tongyi Lab) | | Release date | April 2, 2026 | April 14, 2026 | | Total parameters | 26B | 35B | | Active parameters | 3.8B - 4B | 3B | | Experts (total / routed) | Google undisclosed | 256 total / 81 routed | | Architecture | Pure Transformer MoE | Gated DeltaNet MoE | | Attention ratio | 100% softmax | 75% DeltaNet / 25% GQA | | Native context | 256K tokens | 262K tokens | | Extended context | — | 1.01M via YaRN | | Multimodal inputs | Text, image, video (60s) | Text, image, docs | | License | Apache 2.0 | Apache 2.0 | | Arena AI rank | #6 (score 1441) | Not yet ranked | ----------------------------------------------------------------------------从纯规格来看Qwen 在上下文长度上胜出1M 扩展 vs 256K 固定Gemma 在多模态上胜出支持视频输入、Arena 排名更高。两款都能在消费级硬件上运行。但规格不重要基准测试才重要。3、基准测试血洗我从两款模型的官方技术报告、BenchLM 聚合器以及阿里云 4 月 14 日发布会的独立测试中收集了数据。在 BenchLM 临时总榜上Qwen3.6–35B-A3B 以 64 比 58 领先 Gemma 4 26B A4B涵盖智能体、编程、多模态、知识和推理等任务。以下是各模型的优势领域--------------------------------------------------------------------- | Benchmark | Gemma 4 26B | Qwen3.6-35B-A3B | Gap | | SWE-bench Verified (coding) | 52.0% | 73.4% | 21.4 | | SWE-bench Pro | 35.7 | 49.5 | 13.8 | | Terminal-Bench 2.0 (agents)| 42.9% | 51.5% | 8.6 | | MCPMark (tool use) | 18.1% | 37.0% | 18.9 | | MCP-Atlas | no report | 62.8 | — | | LiveCodeBench v6 | 77.1% | 80.4% | 3.3 | | Codeforces ELO | 2150 | no report | — | | AIME 2026 (math) | 88.3% | 92.7% | 4.4 | | GPQA (graduate reasoning) | 84.3 | 86.0 | 1.7 | | MMLU Pro (general knowledge) | 82.6% | ~87 (est) | 4-5 | | Multimodal avg | 73.8 | 75.3 | 1.5 | | Inference (M2 Ultra, Q8) | 300 tok/s | ~120 tok/s (4090) | — | ---------------------------------------------------------------------两个发现格外醒目第一在双方都报告了分数的每个类别中Qwen 全部获胜。没有一个类别是反过来的。编程、智能体工作流、数学、推理、多模态、知识 —— 每个单元格都是 Qwen 的绿色。第二最大的差距出现在智能体/编程任务上SWE-bench 21.4、MCPMark 18.9、SWE-bench Pro 13.8。最小的差距在推理和多模态上1.5 到 4.4。Qwen 不只是整体更好它在 2026 年人们实际购买模型的确切用例上大幅领先 —— 使用工具、修复 GitHub issue、在 Cursor、Windsurf 和 Claude Code 等编程智能体中自主运行。Gemma 唯一的安慰奖Google 的模型仍在 Arena AI 文本排行榜上保持第 6 位Elo 分数 1441截至 Qwen3.6 发布前的排名。在人类偏好的正面交锋中 —— 响应风格、个性和指令遵循的感觉很重要 —— Gemma 拥有基准数字无法捕捉的精致打磨。它也是两款中唯一原生支持视频输入的最长 60 秒。但对于我想部署一个 AI 在一夜之间修复 50 个 GitHub issue这样的需求基准测试结果是明确的。4、21 分的编程差距如何解释两款模型规模相近、激活计算量相近、许可证相同、发布时间相近。一款在编程上碾压对手 21 分。为什么有三种合理的解释我认为都很重要。1. Gated DeltaNet 让仓库级上下文变得可行。SWE-bench 的很大一部分是在修改时保持多个文件在工作记忆中。标准 softmax 注意力的成本随序列长度呈 O(n²) 增长因此 20 万 token 的上下文意味着巨大的延迟和 KV 缓存膨胀。DeltaNet 的线性注意力循环将其变为 O(n) 计算配合固定大小的记忆。阿里巴巴 3:1 的比例DeltaNet:GQA看起来是最佳平衡点 —— 足够的线性注意力让长上下文成本可控足够的传统注意力在关键时刻保留全局建模能力。2. Qwen 的 MoE 有 256 个专家Gemma 没有公开。Qwen 的路由从总共 256 个专家池中每个 token 激活 8 个路由专家加 1 个共享专家。Google 尚未公开披露 Gemma 4 26B A4B 的专家数量但第三方逆向工程显示大约在 8–32 个总专家采用 top-2 路由。更多专家 更细粒度的专业化。专门的这是 Python 文件专家、这是 SQL 查询专家、这是调试会话专家。3. 阿里巴巴专门针对智能体编程进行了训练。Qwen 3.6 的发布说明明确写道“瞄准顶级智能体编程”。训练语料的权重针对工具调用格式遵循、多轮重试和 80 语言的代码理解进行了调整。Google 的 Gemma 4 训练更通用 —— 多模态推理、多语言文本、对话质量。你倾向于得到你训练的目标。值得说明的一个注意事项阿里巴巴使用自己的内部智能体框架测量了 73.4% 的 SWE-bench Verified 分数而非标准的公开 SWE-bench 测试框架。在中性测试框架上的独立复现目前显示为 68–71%仍然明显高于 Gemma 4 的 52%但没有官方营销数字那么高。预计在未来 3–6 个月内阿里巴巴智能体框架 vs 其他人的智能体框架的故事将成为排行榜上反复出现的脚注。5、真实世界测试我在两款模型上运行的 3 个任务。基准测试是起点不是终点。我在两款模型上运行了三个我实际会使用本地编程模型的具体任务。硬件MacBook Pro M3 Max64GB 统一内存通过 Ollama 使用 Q4_K_M 量化。任务 1 —— 修复开源仓库中的真实 bug。我让两款模型都查看一个 Flask Web 应用该应用在 user-orders 端点存在已知的 N1 查询 bug要求它们识别并修复。Gemma 4 26B A4B正确识别了 N1 模式。建议使用 SQLAlchemy 的joinedload()但导入语句拼写错误sqlalchemy.orm.jointedload—— 差一个字母。生成的 diff 无法干净应用。需要第二轮来修复自己的导入错误。Qwen3.6–35B-A3B正确识别了 N1 模式。编写了干净的.options(joinedload(Order.items))查询链。正确更新了测试夹具以覆盖新行为。diff 一次应用成功。任务 2 —— 多文件重构。将一个 12 文件的 Python 代码库从requests迁移到httpx并添加异步支持。Gemma 4 26B A4B12 个文件中 9 个处理干净。漏掉了两个异步上下文管理器转换。破坏了一个重试装饰器因为它没意识到httpx需要不同的异常类。Qwen3.6–35B-A3B12 个文件全部处理干净。正确捕捉到了重试装饰器的异常不匹配。插入了一个 TODO 注释要求我仔细检查它不太有把握的流处理分支。这种元认知式的我不确定标记出来供审查行为正是智能体编程调优产生的。任务 3 —— LeetCode 困难题。经典测试LeetCode 上的最小窗口子串以棘手边界条件著称的题目。Gemma 4 26B A4B18 秒内首次尝试写出了正确的滑动窗口解法。代码干净最优 O(n) 复杂度。Qwen3.6–35B-A3B也首次尝试写出了正确的滑动窗口解法但耗时 31 秒。注释中的详细解释在教学上明显更好。Gemma 更快M2 Ultra 上 Q8300 tok/s vs RTX 4090 上 Qwen 的约 120 tok/s。它在短任务上确实更快。Qwen 更彻底、在多步骤工作上更可靠、在智能体自我纠正上表现更好。6、你到底该用哪款测试后这是我的坦诚建议使用 Qwen3.6–35B-A3B 的情况你在构建智能体编程循环Cursor、Cline、Aider、Claude Code 风格的智能体。21 分的 SWE-bench 领先和 2 倍的 MCPMark 分数意味着真实世界的可靠性。你需要超过 256K 的上下文。Qwen 通过 YaRN 扩展到 100 万 token。Gemma 止步于 256K。你关心仓库级推理。当你将多个大文件推入上下文时3:1 的 DeltaNet 架构表现出色。你有不错的硬件。Qwen 需要至少约 22GB 内存用于 Q4 量化32GB 更舒适。使用 Gemma 4 26B A4B 的情况你需要带视频输入的多模态。Gemma 接受最长 60 秒的视频Qwen 仅支持文本 图像 文档。你在更紧的硬件上运行。仅 40 亿激活参数M2 Ultra 上 300 tok/sGemma 在交互式聊天中明显更轻快。你在构建对话式 UX其中响应风格和语气比任务完成准确性更重要。Gemma 的 Arena AI 第 6 名反映了真实的人类偏好打磨。你在多语言环境中。Gemma 的训练语料中非英语语言占比更高质量体现明显。诚实的默认选择对于 80% 阅读本文的开发者2026 年 4 月 Qwen3.6–35B-A3B 是更好的选择。编程基准测试 decisive架构确实新颖100 万上下文窗口对于严肃的智能体工作是真正的升级。Gemma 4 26B A4B 是一款很棒的模型 —— 如果 Qwen3.6 没有在 12 天后发布它看起来会很惊艳 —— 但在开发者最关心的几个维度上被超越了。7、5 分钟快速开始两款模型都可以通过 Ollama 一行命令安装。以下是复制粘贴指南 —— 已在 macOSM 系列和 Linux 上验证7.1 安装 Ollama如已安装请跳过curl -fsSL https://ollama.com/install.sh | sh7.2 运行 Gemma 4 26B A4Bollama pull gemma4:26b-a4b-it-q4_K_M ollama run gemma4:26b-a4b-it-q4_K_M Write a Python function to compute Fibonacci numbers using memoization.Q4_K_M 量化需要约 15GB 内存。如果你有 64GB可以使用gemma4:26b-a4b-it未量化以获得稍好的质量内存占用翻倍。7.3 运行 Qwen3.6–35B-A3Bollama pull qwen3.6:35b-a3b ollama run qwen3.6:35b-a3b Refactor this function to use async/await and add retry logic with exponential backoff.默认的 Ollama Qwen3.6 标签以 Q4_K_M 形式发布需要约 22GB 内存。对于 16GB 系统使用 Unsloth 的动态量化版本unsloth/Qwen3.6-35B-A3B-GGUF最低 10GB 占用质量略有损失。7.4 从 Python 调用任一模型OpenAI 兼容 APIfrom openai import OpenAI client OpenAI(base_urlhttp://localhost:11434/v1, api_keyollama) response client.chat.completions.create( modelqwen3.6:35b-a3b, # 或 gemma4:26b-a4b-it-q4_K_M messages[ {role: system, content: You are an expert Python engineer.}, {role: user, content: Find and fix the bug in this code: ...} ], temperature0.2, ) print(response.choices[0].message.content)两款模型都通过 Ollama 暴露相同的 OpenAI 兼容端点。更换model字符串即可在它们之间切换 —— 智能体代码中的其他一切保持不变。如果你已经在使用 Cursor、Cline 或 Aider 配合本地 Ollama 后端今天就可以在真实任务上 A/B 测试两款模型。8、规模化部署生产环境对于吞吐量敏感的工作负载跳过 Ollama直接使用 vLLM 或 SGLang# vLLM vllm serve Qwen/Qwen3.6-35B-A3B --port 8000 --max-model-len 262144 # SGLang python -m sglang.launch_server --model-path Qwen/Qwen3.6-35B-A3B --port 8000在 H100 上vLLM 以 32 个并发会话提供约 300 tok/s 的总吞吐量来服务 Qwen3.6–35B-A3B。9、结束语五天前Google 的 Gemma 4 26B A4B 还是你能在消费级硬件上运行的最佳开源 MoE 模型。今天阿里巴巴的 Qwen3.6–35B-A3B 在报告了双方分数的每个基准测试上都击败了它最大的差距恰好出现在开发者实际使用这些模型的领域 —— 智能体编程、工具使用、长上下文工作。架构原因并不神秘DeltaNet 3:1 线性到 softmax 注意力比例加上 256 专家 MoE 路由目前是这个模型类别更好的配方。Gemma 4 26B A4B 并不差 —— 在大多数维度上它都是 2026 年最先进的开源模型。它只是被一款在开发者最关心的几个维度上、在不到两周后发布的模型超越了。如果你在 2026 年 4 月运行本地编程智能体执行ollama pull qwen3.6:35b-a3b然后继续。21 分的 SWE-bench 差距是真实的、可复现的它在日常工作中表现出的效果与基准测试所说的一致。如果你还在运行上个月的 Qwen 3.5你在 QwenWebBench 性能上留下了 43% 的潜力。升级吧。原文链接Qwen3.6–35B vs. Gemma 4 26B - 汇智网