阿里 Qwen3-Next 重磅发布:800 亿参数仅激活 30 亿,训练成本大降 90%
管理员
2025-09-12
· 6阅读
收录于 AGI
持续更新中
9 月 12 日,阿里通义千问发布下一代基础模型架构 Qwen3-Next,开源 Qwen3-Next-80B-A3B 系列模型。相较 Qwen3 的 MoE 结构,其核心改进显著。混合注意力机制采用 75% Gated Delt
9 月 12 日,阿里通义千问发布下一代基础模型架构 Qwen3-Next,开源 Qwen3-Next-80B-A3B 系列模型。相较 Qwen3 的 MoE 结构,其核心改进显著。混合注意力机制采用 75% Gated DeltaNet 线性注意力与 25% 门控注意力结合,平衡长上下文效率与召回能力,长文本处理更优。高稀疏度 MoE 结构将专家数扩至 512,激活比达 1:50,80B 总参数仅激活 3B,算力利用率 3.7%。训练上,通过 Zero-Centered RMSNorm 等优化提升稳定性,成本较 Qwen3-32B 降超 90%。多 token 预测机制让推理吞吐量提升 10 倍以上,在数学推理等评测中超越同类模型,树立效率新标杆。
推荐AGI