阿里 Qwen3-Next 重磅发布:800 亿参数仅激活 30 亿,训练成本大降 90%

收录于 AGI 持续更新中
9 月 12 日,阿里通义千问发布下一代基础模型架构 Qwen3-Next,开源 Qwen3-Next-80B-A3B 系列模型。相较 Qwen3 的 MoE 结构,其核心改进显著。混合注意力机制采用 75% Gated Delt
9 月 12 日,阿里通义千问发布下一代基础模型架构 Qwen3-Next,开源 Qwen3-Next-80B-A3B 系列模型。相较 Qwen3 的 MoE 结构,其核心改进显著。混合注意力机制采用 75% Gated DeltaNet 线性注意力与 25% 门控注意力结合,平衡长上下文效率与召回能力,长文本处理更优。高稀疏度 MoE 结构将专家数扩至 512,激活比达 1:50,80B 总参数仅激活 3B,算力利用率 3.7%。训练上,通过 Zero-Centered RMSNorm 等优化提升稳定性,成本较 Qwen3-32B 降超 90%。多 token 预测机制让推理吞吐量提升 10 倍以上,在数学推理等评测中超越同类模型,树立效率新标杆。

推荐AGI

最新 AGI 更多
  • 20:35:29 罗曼股份关联合同相关公告要点
  • 20:34:58 中国中免签署北京首都机场免税项目合同
  • 20:34:27 超捷股份股价异常波动公告
  • 20:33:12 *ST惠程获重整投资人3000万元无偿捐赠
  • 20:32:27 上纬新材:机器人业务未量产,仍在研发中
  • 20:31:43 长安汽车拟 60 亿元定增募资 投向新能源与数智平台
  • 20:28:56 55.5 万美元年薪!OpenAI 急招应变准备主管,奥特曼直言压力拉满
  • 20:28:07 蚂蚁阿福:专注问答,拒绝广告与排名
  • 20:23:31 腾讯元宝 “任务” 功能上线
  • 20:22:52 京东联手宇树科技,12 月 31 日北京开首家机器人体验店,科技爱好者别错过!
  • 21:15:56 LeCun新创AI公司估值瞄准30亿欧元,引行业关注
  • 21:15:05 美团LongCat-Video-Avatar模型开源发布
  • 21:14:24 南方航空与阿里云联合发布“天盾”安全大模型
  • 21:13:25 摩根士丹利重磅预测:2050 年人形机器人市场达 5 万亿美元
  • 21:52:26 中芯国际、佰维存储两融折算率回调:分别恢复至 70%、50%
苏公网安备 11011xxxxx号 苏ICP备2025192616号-1