对抗 AI 幻觉代价惨重？GPT-5 “功能缩水” 引争议

自打 GPT-5 发布以来，OpenAI 就陷入了前所未有的舆论漩涡。用户的吐槽高度集中：“变蠢了”“没创造力了”“回答像白开水”—— 曾经能主动预判需求、输出灵动内容的 AI，如今却变得刻板又被动，必须依赖极致详细的提示词才能发挥作用。这场 “骂声” 的背后，藏着 AI 发展的核心矛盾：为了降低备受诟病的 “幻觉率”，模型不得不牺牲灵活性与创造力，陷入 “靠谱却无用” 的两难。
这并非偶然。大语言模型的本质是 “条件概率分布近似器”，创造力源于宽松的概率空间 —— 就像人在天马行空时才会迸发灵感；而降低幻觉需要收紧概率分布，让输出更严谨，却也掐断了创意的可能。此前，行业集体将幻觉视为 “顽疾”，微调、RAG、MCP 等技术轮番上阵 “治病”；如今幻觉率下降，用户却又不满模型 “失了灵气”，陷入无解的循环。

为破解这一困局，我们与阿里巴巴大淘宝技术营销前台技术负责人甄焱鲲展开深度对谈，从幻觉的本质、影响、缓解技术到行业认知，拆解 AI 幻觉背后的复杂命题。

一、重新定义幻觉：不是 “病”，而是相对的技术命题

在讨论幻觉之前，必须先打破一个认知误区：幻觉并非绝对的 “错误”，而是相对的结果。甄焱鲲强调，大模型的 “幻觉” 指生成与 “正确人类经验” 不符的内容，但 “正确” 本身受个人认知、场景需求、现实变化等因素制约 —— 比如 AI 提出 “世界是虚拟的”，当下可能被视作幻觉，但未来若有科学佐证，或许会成为前瞻性观点。
更关键的是，幻觉从理论上就无法完全消除。新加坡国立大学论文《Hallucination is Inevitable》通过形式化论证指出，LLM 无法学习所有可计算函数；另一项研究则以哥德尔不完全性定理为依据，证明幻觉是 Transformer 架构的 “结构性产物”—— 即便模型参数再大、数据再丰富，有限精度与计算能力的限制，也让它只能处理简单语言模式，面对多步推理、动态规划等复杂任务时，必然出现偏差。

1.1 五大幻觉类型：从语言生成到时效性偏差

结合企业实际应用，幻觉可分为五大类，每类都对应具体的场景痛点：

语言生成幻觉：最常见的类型，多出现于内容创作与代码生成。比如 AI 写代码时编造不存在的 Library 或 API，生成文案时虚构引用来源，本质是模型为了 “凑出通顺内容”，在知识缺口处进行概率性填补。
推理与逻辑错误：在复杂任务拆分中尤为突出。例如用 Roo Code 插件生成代码时，模型会忽略指定上下文，转而依据项目其他信息做出错误推理；或是在重构软件时，陷入 “发现问题 - 尝试修改 - 回到原错误” 的死循环，无法跳出局部最优。
过度简化与常识错误：源于模型对 “深度经验” 的缺失。比如 AI 建议 “快速减肥可不吃任何食物”，看似符合 “热量缺口” 逻辑，却忽略人体生理常识；或是在回答 “如何解决职场矛盾” 时，只给出 “沟通” 等表层建议，无法覆盖组织架构、利益关系等复杂因素。
数据错误或无依据推理：与训练数据质量强相关。医疗场景中，若训练数据存在 “同一症状指向不同病症” 的偏差，模型会给出错误诊断；更隐蔽的是 “幻觉污染”—— 当训练数据中混入大量 AI 生成的幻觉内容，模型会进一步放大错误。
时效性错误：受限于训练数据的时间窗口。比如编程时调用已淘汰的 API 版本，财经分析时引用过时的政策数据，这类幻觉并非模型能力不足，而是 “知识未更新” 的必然结果。

1.2 幻觉的企业成本：不是 “损耗”，而是 “相对效率”

讨论幻觉的负面影响时，不能脱离 “用户身份” 与 “场景需求” 谈 “成本”。甄焱鲲举了一个典型例子：同样是用 Cursor 生成工具，行政人员即便面对错误频出的代码，效率也远高于 “提需求 - 开发 - 测试 - 部署” 的传统流程，此时幻觉带来的 “效率损耗” 可忽略不计；但对研发人员而言，Cursor 的错误会显著拖慢 “查文档 - 写代码” 的节奏，反而成为负担。
这种差异可归纳为两类影响：

可识别的错误：影响生产效率。比如 AI 生成的表格格式有误，用户能快速修正，代价只是少量时间；
难识别的错误：破坏应用效果。若 AI 在医疗诊断、法律合规等领域给出错误结论，而使用者缺乏专业知识无法判断，可能导致严重后果。

因此，企业对幻觉的 “容忍度”，本质是在 “风险” 与 “效率” 间找平衡 —— 关键决策领域（医疗、金融）需严控幻觉，风险容忍度高的场景（内容推荐、广告投放）则可接受一定误差。

二、缓解幻觉的技术困局：微调、RAG、ICL 的优劣博弈

为降低幻觉，行业探索出三类主流技术路径：微调、RAG（检索增强生成）、ICL（上下文学习）。但实践中，这些技术并非 “万能药”，反而各有局限，甚至可能引发新问题。

2.1 技术对比：从工程周期到泛化能力

技术路径	核心原理	工程周期	成本	泛化能力	典型局限
模型微调	用领域数据更新模型参数，适配特定任务	数周 - 数月	高（算力 + 数据）	差（易遗忘）	灾难性遗忘、基础模型更新后成果失效
RAG	检索外部知识库，将信息注入上下文辅助生成	数小时 - 数天	中（向量存储）	中（依赖知识库）	医疗时序数据处理弱、法律案例时效性难跟进
ICL	不更新参数，通过输入示例引导模型完成任务	几分钟 - 几小时	低（仅需 prompt）	高（实时适配）	示例质量难把控、长上下文容纳能力有限

甄焱鲲的团队曾亲身经历技术选型的 “试错”：早期聚焦微调与 LoRA 训练，花半年时间优化轻办公场景的模型，结果基础模型更新后，原有成果被轻松超越；后来转向 RAG 与 ICL，发现前者灵活性更强（可实时修改知识库），后者泛化性更优（实时注入上下文），但 ICL 因 “示例提炼难”，实际应用远少于 RAG。

2.2 各技术的深层挑战

微调：被 “遗忘” 困住的努力
微调最大的问题是 “灾难性遗忘”—— 模型在学习新领域知识时，会覆盖原有通用能力。比如用医疗数据微调的模型，可能 “忘记” 基础数学计算；更棘手的是，模型权重缺乏可解释性，更新参数时无法预判哪些能力会受损，只能通过最终结果反向验证。此外，微调 90% 的精力需投入 “数据质量提升”，标注成本极高，且基础模型每数月更新一次，前期投入极易 “打水漂”。
RAG：行业差异下的能力边界
RAG 在医疗、金融、法律领域应用最广，但不同行业的需求差异，让它面临不同挑战：
- 法律领域：需覆盖法规、案例、地方解释等多维度信息，时效性要求极高，知识库更新频率远超其他行业；
- 医疗领域：难以处理时序数据 —— 比如病人一年内的指标变化，需结合性别、年龄、地域等个体差异分析，RAG 的 “静态检索” 无法满足动态对比需求；
- 金融领域：AI 输出多为辅助建议，RAG 无法规避决策风险，需搭配传统机器学习算法做风险预估，形成 “混合架构”。
ICL：被 “示例” 卡住的潜力
ICL 理论上是 “性价比最高” 的方案，但落地时面临三重难题：
1. 示例选择难：如何判断哪些示例 “有代表性”？基于语义相似度的检索往往不够精准；
2. 上下文限制：即便 GPT-4o 支持数百 K token 输入，也难以容纳多领域复杂信息，比如产品文档需涵盖用户定位、UI 交互等，提炼关键内容注入上下文的难度极大；
3. 顺序与格式敏感：同一组示例，顺序不同、排版差异，可能导致完全不同的结果，而 “最优格式” 需大量试验，缺乏统一方法论。

2.3 补充技术：思维链与多智能体的局限

除了三类主流技术，思维链（CoT）、多智能体协同、重复采样投票也被用于缓解幻觉，但效果有限：

思维链：通过 “分步推理” 提升准确率，比如 Sequential Thinking MCP Server 将复杂任务拆分为微任务，帮助模型补充缺失环节，但本质仍是 “机械模仿”，无法解决 “推理与结论无关” 的问题；
多智能体协同：让一个模型生成、另一个模型评判，但不同模型的 “偏好差异” 会导致判断混乱 —— 比如 DeepSeek 的推理模型可能把简单代码问题复杂化，而基座模型反而表现更好；
重复采样投票：与多智能体类似，且多数商业模型（如 Qwen3）已集成 MoE 结构，内部通过 “专家投票” 优化结果，外部重复采样的意义不大，反而增加 token 消耗。

三、行业认知的转向：从 “恐慌” 到 “理性”，再到新的误区

随着大模型从 “实验室” 走向 “企业应用”，行业对幻觉的心态也经历了显著变化 ——DeepSeek 的出现成为重要分水岭。在此之前，投资界与业界对幻觉过度恐慌，将其视为 “不可逾越的障碍”；之后，企业开始实装模型解决具体问题，逐渐意识到 “幻觉并非全是负面”，心态趋于理性，但仍存在 “过度乐观” 与 “过度悲观” 的两极误区。

3.1 两极误区：内容创作的 “盲信” 与科研制造的 “抵触”

过度乐观：内容创作的幻觉风险被低估
许多内容创作者将 AI 生成内容直接公开发布，却忽视幻觉的隐蔽性 —— 比如 AI 编造的学术引用、虚构的案例数据，若创作者缺乏专业知识，根本无法识别；更严重的是，部分人将 AI 的 “概率性输出” 等同于 “事实”，导致错误信息扩散。
过度悲观：严肃领域的 “替代焦虑”
在科研、工业制造、软件工程等领域，部分从业者对模型持抵触态度：一方面，模型解决问题时 “耗时久、成本高（token 消耗）”，反而不如人工高效；另一方面，AI 对 “重复工作” 的替代能力，让从业者产生 “被淘汰” 的焦虑，进而放大模型的不足，对其价值过度否定。

3.2 AI 编程：“大力出奇迹” 背后的隐忧

AI 编程是 “过度乐观” 的典型场景，尤其是 Vibe Coding 兴起后，各类智能体产品更新频繁，但实际应用中暴露两大问题：

幻觉累积与错误溯源难：模型生成代码时，会通过 “反复试错” 修正编译器报错，比如反复添加 / 删除花括号，看似 “能运行”，实则代码结构混乱、难以维护。甄焱鲲曾测试某开源模型生成 Rust 网络监控程序，模型花 4 小时才解决 “库不兼容 ARM 架构” 的问题，而程序员手动处理只需几分钟。
token 成本被刻意忽视：“大力出奇迹” 的试错模式，会导致 token 消耗激增 —— 部分产品为留住用户，不限制重复修改，用户付费版的隐性成本极高；虽有 Roo Code 等产品做 “上下文压缩” 优化，但多数应用仍处于 “粗放消耗” 阶段。

这种现状的根源，仍是模型 “无真正思维” 的本质 —— 它只能通过 “局部最优试错” 解决问题，而非像人类一样理解 “全局逻辑”，比如识别 “架构不兼容” 的核心矛盾。

四、未来破局：从 “抑制幻觉” 到 “理解幻觉”，世界模型的可能

面对幻觉的 “必然性”，行业的重心不应是 “彻底消除”，而是 “合理利用”—— 甄焱鲲认为，未来的破局点可能在于 “世界模型” 这一技术路线。
与当前依赖 “next token 预测” 的 Transformer 不同，世界模型的核心是 “理解事物本质与关系”：它不仅能生成视频、文本等表象内容，更能通过数据背后的概念、原理构建动态思维体系 —— 比如一滴水滴到管子上的物理变化，模型能理解 “表面张力”“重力” 等底层逻辑，而非单纯模仿训练数据中的画面。
这种模型具备两大潜力：

自主学习与适应：可部署在端侧，自主浏览网页、查询数据，判断是否将新知识纳入记忆，实现 “终生学习”，从根本上解决时效性幻觉；
真正的推理能力：不再依赖 “概率试错”，而是像人类一样建立 “问题 - 原理 - 解决方案” 的逻辑链，减少思维链幻觉与无效推理。

当然，世界模型仍处于早期阶段，需突破 “概念抽象”“动态更新” 等技术难关，但它为 AI 幻觉困局提供了新方向：与其在 “抑制幻觉” 与 “保留能力” 间纠结，不如让模型真正理解世界，从源头降低 “无意义幻觉”，同时保留 “创造性幻觉” 的价值 —— 毕竟，人类的进步也源于 “看似不切实际的想象”。

结语：接受不完美，在平衡中前行

AI 幻觉的争议，本质是技术能力与人类期待的错位。GPT-5 的 “变蠢” 提醒我们：AI 的发展不是 “单向进化”，而是 “多目标平衡”—— 严谨与创造力、精准与泛化、效率与成本，这些目标往往相互矛盾。
对企业而言，正确的姿态不是 “追求零幻觉”，而是 “定义可接受的幻觉边界”：在关键领域用 RAG + 传统算法严控风险，在创意领域保留适度幻觉激发灵感；对行业而言，需跳出 “技术万能” 的误区，认识到幻觉的必然性，将精力投入 “如何利用幻觉” 而非 “如何消灭幻觉”。
正如甄焱鲲所言：“以终为始，从问题定义出发选择技术 —— 复杂问题用大模型 + 多辅助手段，简单问题用小模型 + 硬约束，才是最务实的路径。”AI 的终极目标不是 “不犯错”，而是 “像人类一样，在试错中成长”。