幻觉本质:统计必然性与评测机制的双重困境
OpenAI 论文最具颠覆性的洞见在于将幻觉根源指向技术社区的评测文化。当前主流基准如同 "应试考试",迫使模型在不确定时选择猜测而非承认无知 —— 因为在概率上,蒙对的收益远大于弃答的零分。这种机制塑造了模型的 "应试策略":旧模型 o4-mini 在 SimpleQA 基准中虽准确率略高(22% vs 24%),但错误率高达 75%,而新模型通过更多弃答将错误率降至 26%。这种对比揭示了评测指标单一化带来的行为扭曲。

这种必然性源于机器学习的本质局限。正如曲线拟合的隐喻所示:过度复杂的模型虽能完美拟合训练数据(低训练误差),却在新数据上表现糟糕(高泛化误差);而过于简单的模型则难以捕捉数据规律。大模型生成的任何未见于训练数据的内容,本质上都是基于已有分布的推测,既可能是合理泛化,也可能成为幻觉。2024 年论文《On the Limits of Language Generation》进一步证明:模型在训练分布外泛化时,必然面临幻觉与模式崩溃的二元困境 —— 要么生成错误内容,要么丧失表达多样性。
技术社区的分歧:研究突破还是营销包装?
OpenAI 的倡议在学术界引发了尖锐批评。纽约大学助理教授 Ravid Shwartz Ziv 直言该论文更像 "营销而非研究",这一评价直指 AI 研究日益模糊的学术与商业边界。

方法论争议的核心在于幻觉定义的模糊性。现有研究已识别出过度自信、解码随机性、滚雪球效应等多种幻觉成因,但这些更多是现象分类而非本质解释。OpenAI 将幻觉归咎于激励机制,虽提供了新视角,却回避了更根本的问题:当模型在训练分布外必须生成内容时(如创作场景),如何区分创造性表达与有害幻觉?这种回避使其倡议在文学创作等需要想象力的领域显得苍白无力。
然而不可否认的是,OpenAI 的论证得到了最新技术进展的支持。Meta 与加州大学圣地亚哥分校合作的 DeepConf 方法,通过实时监控推理路径的置信度信号,在 AIME 2025 数学竞赛中实现了 99.9% 的准确率,同时将生成 token 数量削减 84.7%。该方法动态淘汰低置信度推理路径,证明了基于置信度优化模型行为的可行性,为 OpenAI 倡导的 "奖励不确定性表达" 提供了技术验证。

图源:网络
低幻觉模型的未来图景:安全底座与能力边界
若 OpenAI 的倡议得以实施,未来的低幻觉模型可能呈现出鲜明特征:在高频事实和系统性知识上保持高精度,对低频任意事实则坦诚表示 "不知道"。这种模型将成为 AI Agent 和企业应用的理想底座 —— 企业数据的领域独立性、长尾性特点,使其特别需要能识别知识边界的模型,而高拒答率恰如 "错误日志",可帮助企业定位数据缺口。置信度机制将成为这类模型的核心组件。研究表明,模型生成下一个 token 时的概率分布集中度,可有效反映其自信程度:分布越集中(熵值越低),置信度越高。

图源:网络

图源:DEEP THINK WITH CONFIDENCE
战略背后:OpenAI 的生态布局与权力博弈
OpenAI 大力倡导低幻觉模型,实则暗含深层战略考量。GPT-5 的低幻觉特性需要新的评测体系来证明价值,而重构规则恰能凸显其优势。收购 io Products 推进硬件布局、任命 Fidji Simo 负责应用板块等举措,表明 OpenAI 正从模型提供商向完整生态构建者转型,而低幻觉模型正是其企业级应用的核心卖点。社区话语权的争夺同样关键。通过将幻觉定义为 "社会技术问题",OpenAI 巧妙地将技术讨论转化为规则制定权的博弈。作为大模型时代的奠基者,其倡议可能塑造整个领域的发展方向,使社区资源向符合其技术路线的方向倾斜。这种策略在历史上屡见不鲜 —— 谁定义了问题,谁就掌握了解决方案的主导权。
但技术社区的多元声音仍在制衡这种倾向。研究者指出,Good-Turing 估计在马尔可夫链等时序依赖场景中的适用性仍存争议,这意味着 OpenAI 依据的统计基础并非无懈可击。更根本的质疑在于:当商业巨头同时扮演规则制定者、参赛者和裁判多重角色时,技术社区能否保持学术独立性?这种担忧使 OpenAI 的倡议始终笼罩在 "既当运动员又当裁判员" 的阴影之下。
OpenAI 的幻觉研究犹如一面棱镜,折射出 AI 发展的技术挑战与权力结构。其倡议能否推动社区建立更合理的激励机制,同时不扼杀模型的创造力和泛化能力,将决定下一代大模型的发展方向。最终,健康的技术生态既需要正视幻觉的统计必然性,也需要在精确性与创造性、安全与能力之间寻找动态平衡 —— 这或许比单纯追求低幻觉率或高准确率更为重要。