Agent 迈入递归自进化阶段,神经计算机三年可期

收录于 前沿科技 持续更新中
在AI Agent领域的浪潮中,诸葛鸣晨始终是那个“于未至处落子”的先行者。作为沙特阿卜杜拉国王科技大学(KAUST)的计算机科学博士生,师从“LSTM之父”&ldquo

 

在AI Agent领域的浪潮中,诸葛鸣晨始终是那个“于未至处落子”的先行者。作为沙特阿卜杜拉国王科技大学(KAUST)的计算机科学博士生,师从“LSTM之父”“现代人工智能之父”Jürgen Schmidhuber教授,他的研究轨迹清晰而坚定——从2021年末锁定多模态智能体课题,到主导MetaGPT、提出GPTSwarm与Agent-as-a-Judge,再到即将推出“神经计算机”(Neural Computer),每一步都踩在领域演进的关键节点上,用前瞻性判断与扎实的科研实践,勾勒出Agent技术的发展蓝图。
这位青源会成员,曾在Meta AI实习,博士就读前深耕微软、阿联酋起源人工智能研究院、阿里巴巴等知名机构,在多模态预训练与大语言模型领域积累了深厚经验。他以第一作者身份在ICML、ICLR、CVPR、TPAMI等顶级会议和期刊发表多篇论文,斩获NeurIPS研讨会最佳论文奖、EMNLP杰出论文候选等多项荣誉,论文累计被引用近5500次;近2年参与的开源项目斩获约130K Stars,相关研究成果更在顶级ML会议获得6次口头报告机会。如今,他发起并组织ICLR 2026递归自我改进(RSI)研讨会,同时担任COLM 2026与CAIS 2026的领域主席,持续推动Agent领域的学术交流与技术突破。
智源专访第36期,我们与诸葛鸣晨深度对话,聊他放弃大厂、深耕科研的选择,谈Agent进化的核心引擎,解读开源实践的底层逻辑,探寻“现代AI之父”的言传身教,更展望Agent与神经计算机的未来十年。


一、择路而行:于迷雾中锚定多模态Agent的未来

2021年末,当大多数研究者仍在多模态预训练的基础领域探索时,诸葛鸣晨已在博士申请阶段,将研究方向牢牢锁定在“多模态智能体”(Multimodal Agents)——这一选择,源于他对技术趋势的敏锐洞察,也藏着对科研本质的执着追求。
“读博前我做的是多模态预训练(VLP),受VLBERT、ViLBERT等工作启发,但当时国内相关研究主要集中在微软和阿里。”诸葛鸣晨回忆道,在阿里期间,他发表了CVPR 2021的Kaleido-BERT工作,彼时整个CVPR 2021的多模态预训练论文仅有5篇左右,但他已预判到这个领域未来的热度。只是,当时的多模态研究大多基于BERT架构,参数量有限,仅停留在图片描述、图文检索等基础理解任务,距离具备推理、规划能力的智能体相去甚远。
“我对Agent的最初想象,一半来自论文,一半来自科幻电影。”他笑着说,《生化危机》中掌控整个设施的“红皇后”、《机械姬》中引发对智能主体性的思考、《头号玩家》中数字世界里的智能体演化,都让他坚定了一个想法:Agent的最终形态或许不重要,但它一定能产生巨大影响力,未来所有人都会从中受益。于是,他的博士研究提案直指“多模态智能体”,希望让现有模型真正与真实环境实现交互。
这份判断,也让他在2021年做出了一个“少数派”选择——放弃阿里等大厂的橄榄枝,gap后申请博士。彼时,阿里已是世界市值第6的公司,同期实习的10位同事均选择入职大厂,他却在纠结后毅然转向科研。“除了对科研的热爱,还有一个务实的判断:2020年底到2021年初,我和室友结合宏观指标、房地产数据及政策变化,预判未来5年将是一段不明朗的周期。”诸葛鸣晨坦言,读博不仅能“覆盖”这段周期,更是对人生的一笔长远投资。
如今回望,他也给面临类似选择的学弟学妹给出建议:当下AI研究已不再强依赖高学历,Vibe Coding和Vibe Research的发展降低了论文发表门槛,论文数量暴涨,但只要做高质量、有实际价值的工作,就一定能站稳脚跟。


二、核心引擎:Recursive Self-Improvement与Agent-as-a-Judge的双重突破

谈及Agent领域的演进,诸葛鸣晨的前瞻性令人惊叹——早在2023年,他就在MetaGPT的附录中,明确指出“recursive self-improvement”(递归自我改进)与“learning from experience”(从经验中学习)将成为Agent下一阶段的核心发展方向。而如今,这两个方向已成为行业讨论的焦点:2025年David Silver和Richard Sutton主推“从经验中学习”,2025下半年至2026上半年,Elon、Sam、Dario等硅谷大佬纷纷聚焦“递归自我改进”。

来源:https://blog.samaltman.com/the-gentle-singularity;https://www.anthropic.com/news/the-anthropic-institute


“2026年Agent领域的突破,就集中在recursive self-improvement。”诸葛鸣晨语气坚定,他正在推动ICLR 2026递归自我改进研讨会,希望汇聚行业力量,推动这一方向的技术落地。而他提出的Agent-as-a-Judge,则为递归自我改进提供了关键支撑,破解了长时程任务评估的核心瓶颈。
“传统benchmark适合短时间任务,比如几分钟、几十分钟就能完成的任务,我们可以设计明确的rubric来评估结果。但现在的Agent已经能持续工作6小时、24小时,甚至未来能稳定运行半个月、一个月,固定rubric就不再适用了。”他解释道,固定rubric默认“好解法”在人类预设框架内,一旦Agent给出超出预期的方案,就无法充分评估其价值;而人类持续监控反馈的成本太高,难以规模化。
Agent-as-a-Judge的核心价值,就是为长时程任务提供持续的、有方向性的反馈信号——它不需要100%精准,只要能支撑迭代闭环持续优化即可。“就像AlphaGo的第37手棋,固定rubric只能判断最终输赢,而Agent-as-a-Judge既能给最终结果打分,也能在过程中实时反馈‘这一步走得很漂亮’。”

图注:2016年AlphaGo与李世石的对局,来源网络
 

被追问与强化学习中reward的区别时,诸葛鸣晨进一步补充:“两者不在一个维度。RL的reward是训练阶段的优化信号,目标是更新策略;而Agent-as-a-Judge的核心是服务于任务执行过程中的长期演化和多主体协作,不是单轮优化,即便能复用到agentic post-training作为辅助信号,也并非其设计初衷。”


三、开源三部曲:从MetaGPT到GPTSwarm,破解Agent发展瓶颈

在诸葛鸣晨的科研生涯中,开源实践占据着重要地位——MetaGPT、GPTSwarm、Agent-as-a-Judge三大开源项目,在GitHub与学术社区均引发巨大反响,其中MetaGPT更是成为智能体编程领域的现象级作品,而这一切的起点,源于他对领域痛点的精准把握。
“MetaGPT诞生的初衷,是解决当时大模型的两大痛点:上下文窗口短、幻觉严重。”他回忆道,2022-2023年,大模型的上下文窗口仅有2k-4k,无法理解repo级别的代码,且容易出现输出不一致、幻觉等问题。MetaGPT的解决方案的是“角色分工+SOP规范化”:模拟公司运作模式,CEO下达指令,系统架构师、产品经理、工程师等不同角色各司其职,每个Agent的输入输出格式清晰,同时设计共享对话窗口,彻底解决了上下文不足与幻觉问题。
除了主导MetaGPT,诸葛鸣晨也是OpenHands(原OpenDevin)的早期核心贡献者。“OpenHands给了另一条思路——不用多智能体,而是用单智能体,这是我所有非一作论文中最喜欢的项目,也认识了很多欣赏的研究者。”他坦言,做开源项目的初衷很实在:一方面在社区建立可见度,另一方面,每次将成果推向社区,都是对自己专业能力的重新评估。
如果说MetaGPT解决了多智能体协作的基础问题,那么GPTSwarm则为Agent的系统化构造与演化开辟了新路径。“GPTSwarm的核心想法很简单:用图(graph)统一建模单智能体与多智能体系统。”诸葛鸣晨解释,在这个框架中,节点代表工具、函数或能力,边代表连接关系与信息流动,Agent的构建与优化,本质上就是图的优化——优化节点即提升单个能力,优化边即改善协作关系,多Agent间的信息传递则表现为跨节点连接。
图注:GPTSwarm概念图
 
值得一提的是,GPTSwarm与LangGraph几乎同期发布,但多走了关键一步:将优化纳入框架,并延伸到自我改进问题。“它的价值不只是‘用图构建Agent’,更在于为recursive self-improvement提供了可落地的框架。”
而Agent-as-a-Judge,作为三大开源项目的重要补充,更是完成了“闭环”——没有持续的评估反馈,就没有稳定的自我迭代,它与recursive self-improvement相辅相成,共同构成Agent进化的核心动力。
回望自己的研究成果,诸葛鸣晨表示,最满意的是那些“解决领域公认问题、明确指出新方向”的工作。“无论是MetaGPT破解痛点,还是GPTSwarm开辟新路径,亦或是Agent-as-a-Judge填补评估空白,只要能推动社区讨论、解决实际问题,就是有价值的。”
当然,科研路上也有遗憾。“最可惜的是错过了AI Scientist方向。”他坦言,2023年下半年,他同时构想了GPTSwarm和GPT-Scientist两个方向,因判断GPT-Scientist过于超前,选择先推进学术贡献更扎实的GPTSwarm,后续因项目收尾后的放松,未能及时跟进,最终Sakana AI在2024年8月发布《The AI Scientist》,引爆了这个方向。“这个错过,实在不应该。”

图注:诸葛鸣晨关于GPT-Scientist的Proposal


四、师者如灯:Jürgen Schmidhuber的言传身教与超前洞察

提及科研路上的引路人,诸葛鸣晨对导师Jürgen Schmidhuber充满敬意。“他是典型的德国学者,严谨、精益求精,脑子像藏了一部百科全书,既严厉又和蔼,某种程度上像个‘老顽童’。”
在组里,Jürgen给予了学生极大的自由——没有固定的weekly meeting,不用应付频繁的汇报,让诸葛鸣晨有足够的空间思考自己的研究方向。但在学术上,他却异常严厉:会逐字逐句审阅论文,因某句话、某个词表述不清而提出强烈批评,同时会耐心解释问题所在,给出具体的修改建议。“他不是手把手教你,而是当你带着问题去问他时,他能迅速指出关键,这源于他几十年的学术积累。”

图注:Jürgen Schmidhuber教授,来源网络

 

最让诸葛鸣晨印象深刻的,是博一入学时主导的Mindstorm项目。当时这个项目有20多人,大部分是资深博士生,他压力巨大,而Jürgen给予了他全力支持——亲自撰写了论文《Mindstorms in Natural Language-Based Societies of Mind》的outlook章节“Economy of Mind”。“他已经60多岁了,还会亲自从文本层面撰写一整个章节,这对一个初级研究者来说,是莫大的鼓励和帮助。”

图注:论文《Mindstorms in Natural Language-Based Societies of Mind》
 

这个章节的洞察更是超前:Jürgen提出,智能体的奖励可以直接等同于“现金”,就像人类需要薪酬维持生活,Agent社会也会由经济因素驱动——有些Agent会“富足”,拥有自己的“数字分身”;有些Agent则可能“破产”。“他的核心观点是,未来Agent的激励机制,会更接近现实社会的现金激励,比如美元、欧元,这样能更自然地驱动Agent的长期演化和多主体协作,而不是单纯的任务分数或反馈信号。”
除了学术指导,Jürgen的严谨与公正也深深影响着诸葛鸣晨。“他会明确指出,CNN的核心贡献者是日本的福岛邦彦,不应完全归功于LeCun;还会写blog讨论‘谁发明了飞机’,指出莱特兄弟之前已有工程师做出‘有动力的飞行器’,希望AI领域能给每一位贡献者应有的认可。”

来源:https://people.idsia.ch/~juergen/planetruth.html


而Jürgen的早期研究,如今也逐渐显露锋芒:Godel Machine(递归自我改进的早期工作)、Making the World Differentiable、World Models、Fast Weight Programmer、Delta Network等,都印证了他在AI领域的远见卓识。“他的眼光,始终在‘大气层’。”诸葛鸣晨感慨道。
此外,在Meta AI的实习经历,也为诸葛鸣晨的研究注入了新的活力。“最大的收获,一是验证了自己的一些判断——学校里不确定的想法,发现正是业界需要的;二是结识了很多优秀的研究者,他们的交流和指导,让我少走了很多弯路。”他表示,未来两年,Meta与KAUST的研究将相辅相成,挂靠Meta继续深耕Agent领域。


五、未来已来:神经计算机与Agent的十年展望

博士生涯即将结束,诸葛鸣晨的研究重心也将从“论文导向”转向“落地导向”。“过去做的项目大多偏学术,关注未来两三年甚至更长远的需求;进入工业界后,会更多聚焦半年内真正需要解决的问题。”
他的近期规划,是打造一个“过往项目的集大成者”——整合多智能体协作、sandbox执行、图优化、自动评估等核心思路,设计一个可长期运行的长程Agent,优先落地在自动工程(automatic engineering)场景。更令人期待的是,他即将推出一篇关于“神经计算机”(Neural Computer)的论文,这是他耗时一年多探索的成果,预计4月前公开。
“神经计算机与现有范式有本质区别。”诸葛鸣晨提前透露,传统计算机围绕显式程序运行,Agent围绕任务执行,World Model围绕环境建模,而神经计算机关注的是“runtime本身”——让系统在运行中持续沉淀能力。“简单来说,Agent是在计算机上跑任务,而神经计算机本身就是那台计算机;传统计算机安装软件,Agent描述任务,神经计算机则是给机器安装能力,并让这些能力长期留存。”
谈及AI的“下半场”,诸葛鸣晨对Shunyu Yao的《The Second Half》给予了肯定,但也提出了不同看法:“他擅长在关键节点提出大问题,让研究者聚焦同一方向,这很有价值,但将‘下半场’概括为‘评估’,口径偏宽,难以直接推导下一步行动。”
在他看来,当前社区围绕“评估”的探索——Agent-as-a-Judge、Arena类系统、OpenRouter真实调用量数据等,本质上是在改进“仪表盘”,而不是重写“发动机”。


图注:概念图
 

 
“更务实的‘下半场’,关键是解决两个问题:recursive self-improvement(决定AI如何持续进化)和Neural Computers(决定AI以什么形态存在),这才是当前行业共同面临的核心挑战。”


图注:概念图


对于如何提前抓住行业热点,诸葛鸣晨分享了自己的“判断公式”——反复追问“当前主流技术下一波会在哪里汇聚”:2020年预判CV、NLP等子课题汇入多模态,2022年预判多模态、LLM汇入Agent,2025年预判World Model、Agent与传统计算机技术汇入神经计算机。“每次用对这个思路,基本能管3年温饱,至于能走多远,就看个人造化了。”
展望Agent领域未来5-10年的发展,诸葛鸣晨充满期待:“Agent已经覆盖编程和各类工程师场景,未来会渗透到所有日常场景,我最期待的是,有一天我睡觉的时候,它能替我跑实验、处理杂事。”但他也强调,人类的适应力和创造性,始终比Agent更强:“AI不会淘汰人,但会用AI的人,会淘汰不会用AI的人,现在这个窗口还开着,先进去的人已经在建立优势了。”
被问及“Agent普及后是否会告别996”时,他坦诚表示:“996恐怕不会消失。生产力提升会放大需求,每个人的负担未必减少,但重复执行型工作会被自动化。最煎熬的不是忙碌,而是忙了一周,却发现没有一件事有价值。”
最后,诸葛鸣晨引用导师Jürgen Schmidhuber 11年前在Reddit的回答,总结自己对AI未来的看法——唯有坚守初心、深耕价值,才能在技术浪潮中站稳脚跟,见证AI与人类共生共荣的新时代。

来源:https://www.reddit.com/r/MachineLearning/comments/2xcyrl/comment/cp46hxc/

 

智源专访栏目意在展现行业顶尖技术研究者和创业者的研究经历和故事,记录技术世界的嬗变,激发当代AI从业者的创新思维,启迪认知、关注突破性进展,为行业注入灵感光芒。


本文来自微信公众号: 智源社区 ,作者:智源社区

推荐前沿科技

苏公网安备 11011xxxxx号 苏ICP备2025192616号-1