9 月 12 日,在备受关注的外滩大会上,蚂蚁集团与中国人民大学携手发布重要技术成果 —— 原生 MoE 架构扩散语言模型(dLLM)LLaDA-MoE。
据介绍,该模型突破了大规模训练的关键技术瓶颈,基于约 20 万亿量级数据完成从零开始的 MoE 架构扩散语言模型训练,充分验证了其在工业级大规模训练场景下的优异扩展性与稳定性,为相关领域技术应用奠定坚实基础。
值得关注的是,蚂蚁集团与中国人民大学明确表示,LLaDA-MoE 模型将在近期实现完全开源,有望为全球 AI 研究者和开发者提供重要技术支持,推动扩散语言模型领域的创新发展。