
一、争议核心:CoT 推理的 “有效性来源” 之争
双方的核心分歧聚焦于CoT 表现出的 “推理能力” 究竟源于 “逻辑泛化” 还是 “数据模式记忆”:
- 论文团队(质疑方):CoT 的有效性严格依赖训练数据分布,其 “分步推理” 是对训练中相似模式的复刻,不具备跨场景的逻辑泛化能力,本质是 “脆弱的幻象”;
- 反驳方(如软件工程师 Sean Goedecke):论文实验存在局限性(任务简单、模型规模小),无法否定 CoT 的推理价值 ——LLM 的推理可能依赖语言工具,且人类推理本身也依赖经验模板,不能因 “分布外失效” 就否定其推理属性。
二、质疑方:论文如何用三大维度拆解 CoT 的 “脆弱性”?
亚利桑那州立大学团队从任务、长度、格式三个核心维度设计实验,验证 “CoT 推理受限于训练分布” 的假设。所有实验均围绕 “分布偏移” 展开:对比模型在 “与训练分布一致(ID)” 和 “与训练分布偏离(OOD)” 场景下的性能差异,核心指标为 “精确匹配率”(即推理步骤与答案均正确的比例)。

1. 任务泛化:CoT 无法迁移到 “新任务 / 新组合”
任务泛化是检验 “逻辑能力” 的核心 —— 真正的推理应能将已知规则应用于新场景。团队将任务泛化分为 “变换泛化” 和 “元素泛化”,结果均显示 CoT 在分布偏移后性能断崖式下跌。(1)变换泛化:新操作 / 新组合直接导致失效
实验设计了 4 种从 “ID 到 OOD” 的梯度偏移场景,以 “函数组合” 任务为例(如f1∘f2
表示先执行 f1 再执行 f2):
- ID(分布内):训练与测试任务完全一致(如训练 / 测试均为
f1∘f1
),精确匹配率 100%; - CMP(组合偏移):测试任务是训练过的基础操作的新组合(如训练
f1∘f2
/f2∘f1
,测试f2∘f2
),精确匹配率骤降至 0.01%(且少量正确是巧合,如输入元素恰好让两种组合结果一致); - POOD(部分分布外):测试任务包含未训练的操作(如训练
f1
,测试f1∘f2
),精确匹配率直接归零; - OOD(完全分布外):测试任务是全新操作组合(如训练
f1∘f1
,测试f2∘f2
),模型彻底失效。

进一步分析发现:即使 CoT 生成的 “推理步骤” 看似正确(如步骤描述符合操作规则),最终答案也可能错误;偶尔正确的答案(如
f1∘f2
到f2∘f1
的迁移)并非源于推理,而是因操作具备 “可交换性”(结果碰巧一致)。

表|CoT 推理在变换泛化中的不同组件评估。
(2)元素泛化:新元素让 “已知规则” 失效
元素泛化检验 “规则能否脱离具体元素”—— 真正的推理应能将 “字母 A→B” 的规则迁移到 “字母 X→Y”。实验固定操作规则,仅改变输入元素:- ID:测试元素与训练元素一致(如均为 A、B、C),精确匹配率 100%;
- CMP(元素组合新):测试元素是训练元素的新组合(如训练 A/B/C,测试 B/C/D),精确匹配率下降;
- OOD(元素完全新):测试元素是训练中未见过的字母(如训练 A/B,测试 X/Y),精确匹配率归零。

2. 长度泛化:输入长度 / 推理步骤偏离即失效
长度泛化检验 “推理能力是否受表面长度影响”—— 真正的逻辑应不受文本长短或步骤多少的干扰。团队将其拆分为 “文本长度泛化” 和 “推理步骤泛化”。
(1)文本长度泛化:仅对训练长度 “精准适配”
实验在 “文本长度 = 4” 的数据集上训练模型,再测试不同长度的输入:- 仅在长度 = 4 时精确匹配率 100%;
- 长度偏离越大(如 2、6、8),性能下降越明显,长度 = 10 时精确匹配率降至 0。

表|文本长度泛化评估。
即使尝试 “填充策略”(如用噪声文本填充到训练长度),也无法提升泛化能力 —— 模型对 “输入长度” 这一统计特征的依赖远超过对 “内容逻辑” 的理解。

图|不同填充策略下文本长度泛化的表现。
(2)推理步骤泛化:步骤数变化即失效
实验在 “推理步骤 = 2” 的数据集上训练,再测试步骤 = 1 或 3 的任务:- 模型在步骤 = 2 时性能最优,步骤 = 1/3 时精确匹配率接近 0;
- 增加 “步骤 = 3” 的训练数据后,模型在步骤 = 3 的任务上性能提升,但在原始步骤 = 2 的任务上性能下降 —— 说明模型是 “记忆不同步骤的模式”,而非 “掌握步骤间的逻辑关联”。

图|不同训练数据组合下的推理步骤泛化测试性能。
3. 格式泛化:表面格式扰动即破坏 “推理”

格式泛化检验 “推理是否依赖模板”—— 真正的逻辑应不受表述形式影响。团队通过 4 种扰动模拟真实场景:
- 插入:在原始文本前加噪声 token;
- 删除:移除部分原始 token;
- 替换:用噪声 token 替代原始 token;
- 混合:融合多种扰动。
论文核心结论
CoT 推理的本质是高度结构化的模式匹配:其 “分步推理” 是对训练数据中 “推理步骤 - 答案” 对应模式的记忆,一旦测试数据超出训练分布(新任务、新长度、新格式),模式匹配失效,“推理能力” 便暴露其 “幻象” 本质。且团队强调,尽管实验用的是小模型,但结论可推广至大规模预训练模型 —— 核心局限在于 “数据分布” 而非 “模型规模”。
三、反驳方:Sean Goedecke 如何指出实验的局限性?
软件工程师 Sean Goedecke 在博客(Real Reasoning)中直言,论文的实验设计和论证存在明显缺陷,无法否定 CoT 的推理价值,

1. 任务设计太简单,无法模拟 “真正的推理”
论文中的任务(如函数组合、字母变换)本质是 “固定算法的计算”,而非 “需要多路径选择的推理”。Goedecke 认为:推理的核心是 “在多个选项中权衡、调整方向”,而论文的任务从结构上就不存在 “选择”—— 模型只需按固定顺序应用规则,这更接近 “记忆计算步骤”,而非 “推理”。他举例:人类解数学题时会尝试不同公式、修正错误思路,这才是推理;而论文的任务更像 “背诵 1+1=2 后,被测试 2+2=?”,无法体现推理的复杂性。
2. 模型规模太小,不具备 “推理涌现能力”
论文使用的模型仅 60 万参数,而行业共识是 “LLM 的推理能力具有涌现性 —— 参数规模达到一定阈值(通常数十亿以上)后,才会表现出跨场景的逻辑能力”。Goedecke 指出:- 60 万参数的模型可能仅能 “记忆步骤顺序”,无法 “拆解规则本质”(如无法理解
f1∘f2
与f2∘f1
的逻辑差异,只能记忆两者的表面模式); - 用小模型的缺陷否定 “所有 CoT 推理”,如同 “用玩具车的性能否定汽车的运输能力”,结论缺乏普适性。
3. 忽略 “人类推理与 CoT 的相似性”
论文批判 CoT“依赖经验模板、分布外失效”,但 Goedecke 反问:人类推理本身不也依赖经验模板吗?- 人类在陌生领域(如量子物理)也会因缺乏经验而推理错误,却不会被否定 “具备推理能力”;
- LLM 的 CoT 是在人类推理文本上训练的,其 “依赖模板” 的特性本质是 “模仿人类推理方式”,而非 “虚假推理”。
- 若论文声称 AI 推理 “虚假”,需先提供 “真实推理” 的严格定义,或对比人类在同一任务上的表现;
- 若论文指出 AI 推理 “失败”,需先判断任务是 “需要多路径选择的推理” 还是 “固定步骤的计算”—— 后者本就不需要推理。
四、客观审视:争议背后的价值与未来方向
这场争议并非 “非黑即白” 的对立,而是暴露了 CoT 推理研究的核心问题:我们尚未完全理解 LLM “推理” 的内在机制,且对 “推理” 本身的定义仍缺乏共识。
1. 论文的价值:揭示 CoT 的 “泛化边界”
论文的核心贡献不在于 “否定 CoT”,而在于明确了 CoT 的局限性—— 提醒行业:- 不能仅凭 CoT 在 “分布内任务” 的表现就认定 LLM 具备 “类人逻辑”;
- 在关键领域(如医疗、法律)使用 CoT 时,需严格验证 “任务是否在模型的训练分布内”,避免因 “幻象式推理” 导致错误。
2. 反驳方的意义:避免 “以偏概全”
Goedecke 的反驳则提醒研究者:- 评价 LLM 能力需结合 “模型规模” 和 “任务复杂度”—— 小模型的缺陷不能直接推广到大模型;
- 不能用 “理想中的绝对逻辑” 否定 “类人推理” 的价值 —— 人类推理本就非完美,LLM 的 “模板依赖” 可能是 “推理能力的雏形”,而非 “虚假”。
3. 未来方向:从 “争议” 到 “突破”
要解决这场争议,需从两方面推进研究:- 更贴近真实场景的实验:用大模型(如 GPT-4、Claude 3)测试复杂任务(如科学研究、法律论证),对比人类与 AI 在 “分布外场景” 的推理表现;
- 拆解推理的内在机制:通过可视化 CoT 的注意力权重、神经元激活模式,探究模型是 “记忆模式” 还是 “构建逻辑链”,进而设计更鲁棒的推理训练方法。
结语:CoT 不是 “幻象”,也不是 “完美推理”
CoT 推理既非论文所指的 “纯粹幻象”,也不是 “完全的类人逻辑”—— 它更像是 LLM 在海量文本中学习到的 “高级模式匹配与文本生成结合的工具”:在训练分布内,它能模拟推理步骤并输出正确答案;在分布外,它的 “推理” 会因模式不匹配而失效。这场争议的真正价值,在于推动行业从 “惊叹 CoT 的表现” 转向 “深入理解 CoT 的本质”—— 唯有明确其能力边界与机制,才能更理性地应用 CoT,同时推动 LLM 向 “真正的可泛化推理” 迈进。