理想汽车借 i8 上市,推送 “VLA 司机大模型”;Momenta 携手智己,完成 R6 飞轮大模型上车;元戎在 8 月 26 日发布了自己的 VLA 大模型;小鹏也在 8 月 27 日的新 P7 发布会上推出全新的 VLA 大模型;华为透露 9 月即将推送 ADS 4。
这些头部智驾势力,几乎都选择在近期落地最新的智驾能力,让人不禁想起上一次 “端到端” 模型引领的行业浪潮。但这一次,变革的深度与广度,已有过之而无不及。
这轮竞赛为何集中爆发?各家命名不同的模型背后,隐藏着怎样的技术分野?新一代智驾,究竟 “聪明” 在了哪里?
智驾竞赛,一触即发
为什么行业内的动作如此集中?总结来看,有四大关键驱动力:监管加强和舆情事件拖后了部分公司的既定节奏;各家公司智驾技术和产品所依赖的 AI 底层创新突破,时间起点相近;将 AI 底层技术应用到智驾上,需要大量训练和调整投入,时间周期相对固定;此外,各家公司都看到了这一轮智驾能力提升的潜力,担心其他家优先发布技术和产品,所以基本都选择了先发布 “基础版” 再优化的思路。其中,最后一点尤为重要。元戎启行 CEO 周光在发布会上就专门表示:VLA 模型(当前版本)的下限已超过端到端(可以简单理解为 2024 年中的大模型技术水平)的上限,未来会越来越好。

注:E2E 1.0 模型可以看到中间的模型部分存在 “分块”,对应 E2E 2.0 的 VLA 模型则为一体。
其次,模型本身从 CNN(早期 AI 围棋、人脸识别等应用的底层技术)为底层核心,升级为 Transformer(即 GPT 等大语言模型崛起的核心底层技术)为核心,大幅提升了智驾大模型对人类大脑的模仿学习能力。

相比智驾行业上一轮普及的 VLM 大模型,VLA 大模型在架构和能力上更贴近智驾能力的需求。
同为端到端模型,VLA 也获得了能力上的大幅提升:面对复杂或罕见的(长尾)路况,具备 Cot 能力的 VLA 模型能够一步步分析,例如 “识别校车,需减速慢行”“检测到路边儿童,存在突然横穿马路的风险”“综合判断”。这种分步推理远比单一的、直觉式的端到端输出更为可靠和安全。
Cot 将模型的决策依据以人类可以理解的语言形式展现出来,极大地帮助了研发人员进行模型的调试和优化,也为事故追溯、责任界定提供了清晰的依据,从而增强了用户和监管机构对自动驾驶系统的信任。通过在海量数据中学习推理逻辑,Cot 使得 VLA 模型能够举一反三,将学到的驾驶知识和常识应用到从未见过的新场景中。它不再是单纯地记忆驾驶行为,而是学会了 “如何思考”,让应对现实世界中层出不穷的复杂交通状况成为了可能。
除了 VLA 路线,目前华为和蔚来主推的是另一条路线:世界模型。后者虽然更强调 “海量使用云端模拟的数据、来让大模型‘理解’世界而学会驾驶”,但其最底层的世界模型仍需要 Transformer 技术驱动。华为此前在和浙大、港科大的相关科研成果中,多次提到这一点。
新一代模型,让 AI “学会害怕”?
理论上的强大,最终要靠体验说话。在对元戎启行 VLA 模型的实际测试中,最令人印象深刻的,是其 “防御性驾驶” 能力的提升。周光用了一个非常人性化的词来形容这种能力 ——“让 AI 学会害怕”。这种 “害怕” 并非迟疑,而是一种高级的智能表现:像人类驾驶员一样,对潜在风险保持先验性的警觉。
右下角为 VLA 模型的 CoT 运行界面,包含对环境的文字定义、推理和决策(下同)。
在深圳常见的立交桥下辅道,人车混行,视野狭窄,VLA 模型会持续进行自我推理,主动将车速降至绝对安全的范围。
在被花坛遮挡视线的路口,当感知到对向车道有电瓶车高速驶来,它的驾驶决策会立刻从 “控速” 升级为 “主动降速”,预留出足够的反应空间。
在丁字路口的汇入场景,VLA 也能在没有驶入路口之前,提前分析识别,降低车速再进行汇入车流的动作,避免因为车速过快导致车辆被迫拐入其他车道。
在老城区复杂的十字路口,它能综合天气、路边违停、行人动态等信息,推理出潜在风险,以一种近乎 “敬畏” 的姿态,缓慢而安全地通过。
总而言之,新模型的体验提升并非体现在某个单一功能上,而是一种综合性的飞跃 —— 更顺滑的控车、更果断的反应和贯穿全程的 “安全感”。尽管在极端场景(全程共两次,一次是在盲区状况下低速变道遇到了施工路段,另一次是路口临停车多导致转向过晚)下仍需人类接管,但那种驾驶时 “心里有底” 的信任感,是此前任何系统都难以给予的。
值得一提的是,因为文字指令的关系,这套智驾系统已经可以用语音进行基础性的操作,例如 “请开快、开慢一点” 等指令能够被系统接收,并以决策的形式给到操纵端。VLA 也已经可以直接读取交通标识上的文字说明,并且按照指示优化驾驶(例如有些路口左转红灯可以进待行区)。
智驾竞赛,如何展开?
在发布会交流环节上,周光自己表示:VLA 目前还没有完全实现思维链(CoT),目前这一技术路线的得分也只是到 6 而已(满分 10 分),还有大量的优化要做。接下来的主要任务主要是两项,一是持续收集和丰富自有测试车队、量产车数据,以及生成数据;另一个是看清技术趋势,持续完善 VLA 的后训练,不断优化大模型的表现。
对于行业接下来的发展,周光也提了一些观点,其中最重要的三点是:VLA 的成本差异主要在芯片,具体的成本差异不确定,但目前来看 15 万元以上的车型都可以适配,10 万元级别的车型通过优化也有机会搭载;早期的智驾芯片主要针对 CNN 设计优化,VLA 模型应用之后,芯片一定会加强对 Transformer 的支持,尤其是在 FP4、FP6 等精度的算力优化上;如果车企或供应商想自研辅助驾驶系统,也很难跳过从规则算法、端到端 1.0 到 VLA 模型的过程,每个发展过程有自己的 Know-How。顶多可以压缩某些阶段的时间,但不可能完全绕过。
如何让 AI 真正地 “理解” 并 “敬畏” 真实世界,从 “会开车” 到 “会思考”,智驾技术和产品正悄然迈入一个新的实战时刻。