
这场资本盛宴的导火索,却只是 DeepSeek 在 8 月 21 日 V3.1 版本发布文章评论区的一句补充留言。
一句话为何能掀翻资本市场?
事情的起因藏在 DeepSeek V3.1 的发布细节里。官方在发布文中对 "过程算力支持" 的描述极为隐晦,直到评论区的一句补充,才让市场捕捉到关键信号。这并非资本对 "口号" 的盲目追捧。长久以来,国产芯片在 AI 大模型赛道始终面临一个尴尬:以 DeepSeek 为代表的顶尖大模型普遍采用 FP8 浮点格式(用 8 位存储数据,可降低显存带宽压力),但国内多数芯片仅原生支持 FP16。这意味着,国产芯片跑起这些模型,性能至少折损一半 —— 就像运动员绑着沙袋参赛,起步就输了英伟达芯片一截。
而 DeepSeek 这句补充,恰恰指向了打破这种 "性能折损" 的可能。市场从中看到的,是国产芯片真正切入国际算力前沿的曙光。

图|豆包AI生成
拆解 "UE8M0 FP8":藏在数据里的突破
要理解这场震动的根源,必须解码 DeepSeek 提到的 "UE8M0 FP8"。这个看似晦涩的术语,藏着国产芯片 "满血运行" 的密码。
先看 FP8:被算力刚需倒逼的格式革命
FP8 是 AI 大模型的 "效率密码"。随着模型参数飙升,训练和推理对显存带宽的需求呈指数级增长,把数据压缩到 8 位存储的 FP8,能大幅减轻这种压力。但传统 FP8(如 E4M3 或 E5M2 格式)有个致命问题:动态范围和精度难以兼顾,就像把一堆衣服强行塞进小箱子,虽然省空间,衣服却会被压得变形 —— 处理复杂数据时容易出现精度损失或数值溢出。再看 UE8M0:MX 格式里的 "中国适配方案"
真正的突破来自 Meta、谷歌等巨头推动的 MX(Microscaling)格式。它不再让所有数据共用一个缩放因子,而是把数据切成小块,每个块配一个专属缩放因子 —— 相当于把衣服分小包整理,既省空间又保形态,动态范围能扩展数十倍。DeepSeek 的 "UE8M0",正是 MX 格式里这个关键的缩放因子:
- "U" 代表无符号,永远为正数,省去符号位;
- "E8" 意味着 8 位全用于表示指数,动态范围极大;
- "M0" 表示没有尾数,格式极简。
打个比方,UE8M0 就像一个 "只调档位、不调微刻度" 的超级开关,能让 AI 芯片像按了快进键般高效运行。
给国产芯片的 "量身定制":更快、更省、门槛更低
UE8M0 FP8 对国产芯片的意义,体现在三个维度:性能跃升:硬件执行数据还原时,只需简单的整数次幂运算,避开复杂的浮点乘法,关键路径大幅缩短。其动态范围(2⁻¹²⁷到 2¹²⁸)能完美覆盖 FP8 的表示范围,几乎避免信息损失 —— 国产芯片终于能 "满血" 跑模型了。
成本优化:传统方案给每个数据块配 32 位缩放因子,UE8M0 只需 8 位就能管理 32 个 FP8 数据,带宽开销骤降 75%。对 HBM 带宽仍在追赶的国产芯片来说,这是 "用格式创新补硬件短板" 的神来之笔。
门槛降低:多数国产 AI 加速器未原生支持完整 FP8 计算单元,但 UE8M0 格式极简,无需复杂专用乘法器即可实现,大大降低了适配难度。
产业共振:从技术突破到生态解绑
资本市场的狂欢,本质是对 "国产算力产业链共振" 的期待。此前,中国顶尖大模型与英伟达芯片的深度捆绑,一直是产业隐忧。DeepSeek 的这次表态,更像一次 "渐进式解绑":官方主动下场为国产芯片生态站台,意味着国产算力厂商已在浮点格式、编译器优化、训练框架适配等环节实现全栈打通。
从具体厂商看,机会并非个例:
- 摩尔线程的 MTT S5000 是国内首批原生支持 FP8 并量产的 GPU,其 MUSA 架构能完美适配 UE8M0 FP8,可实现两倍浮点算力提升;
- 寒武纪的思元 590、690 系列也支持 FP8,这也是其股价创历史新高的重要原因;
- 更多头部国产芯片公司已与 DeepSeek 接触,生态协同正在加速。
算力产业的 "顿悟时刻"
DeepSeek 的一句话,实则是对未来大模型算力效率的重新定义。它标志着中国芯片产业不再是 "被动适配者",而是开始在主流标准框架内,用前沿设计争夺国际话语权。当技术突破、生态协同、资本认可形成合力,中国芯片正迎来前所未有的窗口期。这一次,它们或许真能站到技术潮水的前沿。