阿里 Qwen3-Next 重磅发布:800 亿参数仅激活 30 亿,训练成本大降 90%

收录于 AGI 持续更新中
9 月 12 日,阿里通义千问发布下一代基础模型架构 Qwen3-Next,开源 Qwen3-Next-80B-A3B 系列模型。相较 Qwen3 的 MoE 结构,其核心改进显著。混合注意力机制采用 75% Gated Delt
9 月 12 日,阿里通义千问发布下一代基础模型架构 Qwen3-Next,开源 Qwen3-Next-80B-A3B 系列模型。相较 Qwen3 的 MoE 结构,其核心改进显著。混合注意力机制采用 75% Gated DeltaNet 线性注意力与 25% 门控注意力结合,平衡长上下文效率与召回能力,长文本处理更优。高稀疏度 MoE 结构将专家数扩至 512,激活比达 1:50,80B 总参数仅激活 3B,算力利用率 3.7%。训练上,通过 Zero-Centered RMSNorm 等优化提升稳定性,成本较 Qwen3-32B 降超 90%。多 token 预测机制让推理吞吐量提升 10 倍以上,在数学推理等评测中超越同类模型,树立效率新标杆。

推荐AGI

最新 AGI 更多
  • 21:41:59 华为全联接大会引爆算力行情 烽火通信携昇腾生态涨停领涨
  • 21:37:49 医药电商板块午后强势拉升 中国医药放量涨停领涨行业
  • 21:37:00 国标落地预期引燃市场 味知香领衔预制菜概念股逆势涨停
  • 21:36:08 政策红利叠加黄金周预期 旅游股尾盘强势拉升 曲江文旅放量涨停
  • 21:35:17 海程邦达控股股东唐海质押 835.2 万股,用途为债权投资
  • 21:33:47 量子计算热潮延续:IONQ 盘前领涨 7% 美股概念股集体走强
  • 21:33:05 蚌埠市政府向中粮科技支付 3000 万元征收补偿
  • 21:32:13 南向资金单日净买入 63 亿港元 美团连续三日获加仓居首
  • 21:31:12 长盈精密官方回应:与宇树科技不存在股权关系
  • 21:30:05 韵达股份 8 月快递收入 41.19 亿元,同比增 5.16%
  • 21:12:18 申通快递 8 月营收同比增 14.47% 单票收入逆势上涨 3% 跑赢行业
  • 21:09:36 永辉超市聘任王守诚为新任 CEO,90 后高管掌舵改革深化
  • 22:12:21 比特币突破 11.4 万美元关键阻力位
  • 22:11:45 高盛展望美联储 9 月利率声明:料提及就业疲软,暂不明确 10 月降息承诺
  • 22:10:48 央行数据:7 月末汽车金融公司融资双轨并行 金融债与 ABS 合计发行 699 亿元
苏公网安备 11011xxxxx号 苏ICP备2025192616号-1