阿里 Qwen3-Next 重磅发布：800 亿参数仅激活 30 亿，训练成本大降 90%

管理员 2025-09-12 · 123阅读

收录于 AGI 持续更新中

9 月 12 日，阿里通义千问发布下一代基础模型架构 Qwen3-Next，开源 Qwen3-Next-80B-A3B 系列模型。相较 Qwen3 的 MoE 结构，其核心改进显著。混合注意力机制采用 75% Gated Delt

9 月 12 日，阿里通义千问发布下一代基础模型架构 Qwen3-Next，开源 Qwen3-Next-80B-A3B 系列模型。相较 Qwen3 的 MoE 结构，其核心改进显著。混合注意力机制采用 75% Gated DeltaNet 线性注意力与 25% 门控注意力结合，平衡长上下文效率与召回能力，长文本处理更优。高稀疏度 MoE 结构将专家数扩至 512，激活比达 1:50，80B 总参数仅激活 3B，算力利用率 3.7%。训练上，通过 Zero-Centered RMSNorm 等优化提升稳定性，成本较 Qwen3-32B 降超 90%。多 token 预测机制让推理吞吐量提升 10 倍以上，在数学推理等评测中超越同类模型，树立效率新标杆。

阿里 Qwen3-Next 重磅发布：800 亿参数仅激活 30 亿，训练成本大降 90%

推荐AGI