突发!DeepSeek V3.1 被 “极” 字 “攻陷”

收录于 前沿科技 持续更新中
  近日,多名开发者在使用 DeepSeek 最新版 V3.1 时,遭遇了令人匪夷所思的状况:模型竟在完全不该出现的地方,莫名其妙地插入 “极 / 極 /extreme” 等 token。这一诡

  近日,多名开发者在使用 DeepSeek 最新版 V3.1 时,遭遇了令人匪夷所思的状况:模型竟在完全不该出现的地方,莫名其妙地插入 “极 / 極 /extreme” 等 token。这一诡异现象绝非个例,已经严重干扰到正常的编码流程,引发了业内的广泛关注。

  在 Go 语言生成场景中,这一问题尤为突出。比如原本正常的time.Second,竟被模型生生篡改成time.Se极;版本号V1也未能幸免,变成了V极。更让人忧心的是,该问题并非局限于第三方量化部署,就连 DeepSeek 官方的全精度版本也未能逃脱,这意味着在真实的编码工作中,这一错误可能随时随地出现,给开发者带来极大的困扰。

  开源社区的用户们迅速行动起来,给出了多组复现场景。在多种语言生成任务里,模型仿佛中了 “魔咒”,总是将词元 “粘” 到标识符中,在类似Second这样的词汇前,随机插入 “极 / 極 /extreme”。即便采用top_k=1,temperature=1这种极为保守的解码设置,也无法阻止模型的 “任性” 行为。

  起初,有人猜测是极低比特量化过程,或者校准数据集存在边缘效应,从而导致了这一异常。但很快,在其他网站的 FP8 全精度版本中,同样的 “极” 字乱入问题再次出现。这一发现有力地证明,这绝非单纯的部署层面事故,问题或许出在模型本身更深层次的架构或算法逻辑中。

  事实上,这并非 DeepSeek 更新后首次暴露出严重 bug。此前,在写作任务中,DeepSeek 就曾出现语言混杂的尴尬局面,生成的内容不伦不类;在代码任务方面,还被质疑存在过拟合现象,生成的代码质量参差不齐。

  然而,此次 “极” 字的乱入,性质远比之前更为恶劣。它不再仅仅是简单的 “答错题”,而是可能直接导致系统崩溃。无论是影响语法树的正常解析,使得代码无法编译运行,还是让代理流程陷入卡死状态,无法继续执行后续任务,对于那些高度依赖自动化编码,或者拥有复杂测试流水线的团队而言,都堪称一场噩梦,可能导致项目进度延误,造成巨大的经济损失。

  无独有偶,近期 Gemini 也曝出了令人啼笑皆非的问题。在代码场景中,Gemini 陷入了 “自我否定的无限循环”,不停地输出诸如 “我是个大傻子” 之类的长串文本,仿佛陷入了某种 “精神错乱”。这一事件同样引发了广泛关注,凸显出大模型在稳定性方面存在的诸多隐患。

  面对 DeepSeek 此次的 “极” 字风波,官方截至目前尚未给出任何明确说明。排查此类问题的根源,确实需要厂商投入大量时间与精力。以 Gemini 之前的循环 bug 为例,最终被定性为安全层、对齐层和解码层之间的交互出现问题。通常情况下,厂商为了抑制模型输出冒犯性内容、减少幻觉现象,会在系统提示或后处理环节添加各种规则。然而,当这些规则与特定的代码场景产生冲突时,就可能触发异常的替换、重复输出,甚至出现过度道歉的情况,最终演变成如同 Gemini 那样的 “情绪化死循环”。Google 的产品负责人虽已出面表示正在全力修复该 bug,但网友们早已按捺不住,纷纷玩梗调侃,建议带 Gemini 去看 “心理咨询”。

  相较于 Gemini,DeepSeek 这次的问题主要集中爆发在第三方平台上,情况显得更为棘手。知乎答主 Pandora 经过测试发现,官方 api 的表现相对稳定,问题较少。这无疑增加了排查工作的复杂性,需要从多个角度、多个层面去梳理问题,究竟是第三方平台的接入方式存在问题,还是模型在不同环境下的适配出现偏差,亦或是其他未知因素导致,都有待进一步深入探究。

  从技术原理层面分析,也有可能是解码概率分布出现偏移所致。大模型在处理文本时,通常会先将文本切成词元(token),处理完成后再重新拼接回去。在这一过程中,只要解码概率分布出现哪怕极其微小的偏移,就可能导致模型将一个高频 token 强行插入到标识符中。追根溯源,这反映出当前大模型的本质缺陷 —— 它并非真正 “理解” 文本含义,而只是机械地基于概率进行 “拼凑”。当分词结果不理想,或者解码过程受到外界微小扰动时,这种基于概率的拼接方式就极易出错,将一个不相关的高频词元 “污染” 到最终输出结果中,从而引发各种意想不到的错误。

  一直以来,大模型的稳定性都是困扰整个行业的难题。早在今年年初,OpenAI 的社区就涌现出大量用户反馈,抱怨记忆体系异常,导致历史上下文丢失,严重影响使用体验。

  Gemini 也未能幸免,其人像生成功能曾为追求所谓的 “多样化”,将一些非常具体的历史人物,生成了风格完全不符的样貌,引发用户不满,最终官方不得不紧急临时下线该功能。

  此外,模型提供商日常频繁进行的 “热修” 操作,虽然本意是为了优化模型性能,但也可能成为新 bug 的 “导火索”。这些 “热修” 涵盖换系统提示、微调温度、更新 tokenizer、小改工具调用协议等方方面面。一旦链路拉长,哪怕是看似微不足道的灰度调整,都有可能打破模型原有的平衡。昨天还运行稳定的代理链,今天就可能在函数签名、JSON 严格性、工具返回格式等 “边角位” 上突然崩溃。更为麻烦的是,厂商往往不会及时、全面地同步披露这些灰度细节,这就导致工程师在面对事故时,只能凭借经验 “猜测 + 对照”,艰难排查问题根源。

  与此同时,随着越来越多的 Agent 与工具链深度结合,虽然为大模型应用带来了更多可能性,但也使得整个系统变得更加脆弱。那些主打自动研究或自动写码的多智能体,在实际运行过程中,真正容易出现故障的地方,往往并非大模型本身,而是出在 “工具调用 — 状态清理 — 重试策略” 这一复杂链条中。例如,调用工具时出现超时却没有兜底机制,任务失败后无法有效还原上下文,导致后续操作无法正常进行等。这一系列问题表明,我们在试图通过各种规则去修剪和控制 AI 行为的同时,AI 却总能从一些意想不到的角落,以一种荒诞不经的方式,偏离我们预期的轨道,产生各种奇奇怪怪的问题。

  DeepSeek 的 “极” 字 Bug 和 Gemini 的循环事故,犹如两记警钟,重重地敲响在整个行业的耳畔。它们让我们深刻认识到,在追求大模型更高准确率、更强推理能力,以及模型层 SOTA(state-of-the-art,当前最优水平)的同时,工程的稳定性同样不容忽视。我们真正需要的,是一种即使模型犯错,其错误也能被精准预测和有效控制的 “确定性”。只有这样,大模型才能从目前 “能干活” 的初步阶段,逐步迈向让用户真正 “能托付” 的成熟阶段,在千行百业中发挥更大的价值,而不是成为随时可能引爆的 “不稳定炸弹”,给使用者带来无尽的麻烦与损失。

推荐前沿科技

苏公网安备 11011xxxxx号 苏ICP备2025192616号-1