2025年12月22日,长城汽车魏牌蓝山智驾进阶版正式发布,为这一年智能驾驶领域的“VLA上车元年”画上了句号。这一年里,理想、小鹏、奇瑞等车企相继推出VLA量产车型,小米、零跑等也加速布局,VLA毫无悬念地成为2025年汽车圈的核心热词。而更具行业风向标意义的是,一直坚守端到端路线的特斯拉,在FSD V13表现平平后,也于V14版本转向了类似VLA的架构——这一转变,不仅印证了VLA的行业认可度,更揭开了智能驾驶路线迭代的深层逻辑:从分治算法到端到端,再到VLA及各类衍生方案,每一次转向都源于技术痛点的倒逼,也孕育着新的可能。

10月底,一张手机拍摄的PPT照片突然在网络疯传,显示FSD V14已加入思维链
智能驾驶的早期探索,始于“人工规则堆砌”的分治算法。这种方案本质上是一个“执行机器”,缺乏自主思考能力,想要让车辆识别红灯、避让行人,都需要工程师逐条编写规则。何小鹏在2024年AI Day上曾给出一组触目惊心的数据:若要让智驾系统无限接近人类驾驶员水平,需约10亿条规则,而当时行业内稳定运行的系统仅完成10万条,不足万分之一。人力穷尽所有场景的不切实际,让特斯拉率先转向了端到端架构——一条被认为更具颠覆性的技术路径。

chibps,singhp.recentadvancementsinend-to-endautonomousdrivingusing deep learning:a survey
2023年8月,马斯克那场45分钟的旧金山直播,让端到端架构一战成名。仅靠2000多行代码的FSD Beta V12系统,就能顺利应对无保护左转、施工区域等复杂场景,全程仅因一次闯红灯被接管。其核心优势在于“模仿学习”能力:无需人工编写规则,通过学习大量人类驾驶视频,就能自主建立环境与驾驶行为的关联。更简洁的架构设计更是让代码量骤减99%,从传感器输入到控制指令输出,全程由深度学习模型主导,彻底摆脱了对人工规则的依赖。
但颠覆性的背后,是难以破解的“黑箱困境”。端到端架构的中间运算过程完全不可见,仅能观测输入与输出数据,一旦出现闯红灯、逆行等低级错误,无法追溯问题根源。传统分治算法虽繁琐,但每一步运算清晰可见,可直接针对性优化;而端到端出现问题,只能通过持续投喂优质视频片段反复训练,效率低下且效果不可控。为解决这一痛点,“端到端+VLM”的组合方案应运而生——给端到端套上一个思维链“外挂”。

理想汽车端到端+VLM
VLM(视觉-语言模型)的核心作用,是同步接收传感器、导航等数据,利用类似GPT的推理能力生成场景描述与处理意见,比如“路口红灯,需减速停车”,为端到端的决策提供备注,极端场景下可作为兜底。但这种方案的弊端同样明显:VLM是独立运行的模型,运算速度远跟不上端到端的节奏——端到端完成5次决策时,VLM可能仅能生成1条文本。非复杂场景下,端到端会直接忽略VLM的决策,两者的联合训练与优化效果未达预期。更关键的是,VLM仅能覆盖“感知-判断-决策”阶段,无法理解控制过程,若问题出在控制环节,便会因“看不懂”控制信号而无能为力。

元戎启行对比VLA与端到端+VLM
补全控制环节的短板,就有了VLA(视觉-语言-动作)模型的诞生。可以用一句话概括VLA的核心价值:既有全程可求导的端到端神经网络形式,又具备大语言模型的推理能力。与“端到端+VLM”的外挂模式不同,VLA将视觉感知、语言理解、动作生成深度集成进统一神经网络,通过引入动作解码器(A),彻底打通了“感知-决策-控制”的全链路。动作解码器让语言模型不再局限于生成“向右变道”这类模糊文本,而是直接输出代表方向盘转角、刹车幅度的特征向量,消除了自然语言与控制信号间的语义鸿沟。更重要的是,全链路采用可微分数学计算,实现了推理过程的全程可追溯,遇到问题时能从控制信号反向定位错误源头,大幅提升优化效率。
2025年VLA的爆发式增长,离不开行业巨头的集体背书。理想、小鹏、奇瑞、长城等车企纷纷落地VLA量产车型,特斯拉FSD V14也通过整合全景分割、3D占用、语言信息等中间结果进行轨迹推理,本质上采用了类似VLA的架构。何小鹏亲赴北美体验FSD V14后公开表示,其与特斯拉Robotaxi已无区别,L2和L4可用同一套系统实现;理想汽车智能驾驶研发高级副总裁郎咸朋更是直接断言,VLA是自动驾驶最好的模型方案。

OpenVLA模型架构
但VLA并非完美无缺,反对声音从未停歇。华为智能汽车解决方案BU CEO靳玉志明确表态:“华为不会走向VLA路径,这种看似取巧的方式,并非真正自动驾驶的正确方向。”华为更推崇WA(World Action,世界行为模型),核心是省去语言转译环节,通过多模态输入直接生成控制信号。而华为的质疑,恰恰击中了VLA的核心短板——两次转译带来的信息损耗与延迟。VLA依赖大语言模型推理,需先将输入数据转化为token,推理完成后再将token转化为控制信号,这两次“翻译”过程不仅会造成信息丢失,还会消耗大量算力,拖慢响应速度。何小鹏曾用一个生动的例子量化这种损耗:“一段1200多字的文字描述,也无法精准‘翻译’一个十几秒的视频。”
算力与延迟的压力,成为VLA落地的现实阻碍。以理想汽车为例,早期部署在单颗Orin-X芯片上的VLM仅能以3Hz运行,即便换上新一代Thor-U芯片,并采用MoE架构、Sparse Attention等稀疏化设计优化的MindVLA,运行频率也仅提升至10Hz,与传统端到端架构仍有较大差距。即便VLA已摒弃自然语言,转而采用信息含量更高的抽象token降低算力开销,仍无法完全避免原始信息的损失。面对这些问题,行业开始分化出不同的探索方向。

DeepSeekMoE架构
一部分企业选择坚守VLA路线,通过技术优化破解现有痛点。理想汽车提出通过降低模型精度,将运行频率提升至20Hz的方案。当前主流的FP8/INT8精度需占用1字节资源,若优化为FP4精度,仅需0.5字节即可完成同等运算,能在相同硬件与时间成本下实现任务量翻倍,间接让TOPS(每秒执行基本操作次数)提升1倍。这一方案的可行性,得益于英伟达首次在智驾芯片架构层兼容FP4精度,若落地可将现有700TOPS稠密算力提升至2000TOPS等效稀疏算力。不过,目前业界缺乏公认的FP4标准格式,贸然降精度可能导致模型性能崩溃,仍需漫长的技术攻坚。
另一部分企业则选择在架构层进行革新。小鹏汽车计划下季度发布的VLA 2.0,将架构从“V-L-A”改为“V/L-A”,不再依赖语言模型推理,输入传感器数据后可直接映射控制信号,既显著降低延迟,又减少了两次转译的信息损耗。华为的WA世界行为模型则走了另一条路径,在端到端映射过程中引入多模态输入和MoE多专家能力,通过“信息补全”和“逻辑约束”降低不确定性。多模态输入可综合多种信息交叉验证,缓解黑箱问题;额外增加的激光雷达、4D毫米波雷达等传感器,能帮助捕捉极端场景的关键特征,减小推理盲区。
MoE架构的价值的在于解决单一大模型的“通用妥协”问题。它将单一大模型拆分为门控网络和多个专家模型,工作时可按需调用对应专家模型,无需激活全部参数。每个专家模型可独立训练,专精于特定场景或技能,能在处理复杂问题时调用最适配的专家,提升长尾场景适配能力与决策精度;同时,稀疏激活机制缓解了车端芯片的算力限制,只要保证被调用专家流畅运行即可,通过扩容专家模型参数量就能提升性能。靳玉志的观点也印证了这一思路:VLA是取巧方案,而WA通过多模态输入直接生成控制信号,省去语言转译环节,才是真正的自动驾驶路径。
除了上述路线,宇树科技创始人王兴兴提出的“生成动作视频再模仿执行”的思路,引出了更具前瞻性的“世界模型”概念。这是一种极致的端到端架构,既能直接将输入信息映射为输出结果,又能理解真实世界的运行规律,实现瞬间响应与完全可靠。但世界模型的落地门槛极高,需要模型掌握与世界相关的全部知识,需依托海量参数量和算力支持。目前小鹏部署在云端的世界模型参数量已达720亿,需3万卡算力集群支撑,而车端VLA即便配备三颗图灵AI芯片(2250TOPS算力),也仅能搭载几十亿参数量的模型,短期内无法实现车端部署。
商汤绝影强化学习路线
现阶段,世界模型的核心价值在于辅助车端模型的仿真训练。通过主动生成现实中难以采集的极端场景,对智驾系统进行强化学习,可大幅提升系统泛化能力;同时,通过设立奖励函数,能帮助系统在安全、效率、舒适等多维度找到最优决策轨迹。这种方式解决长尾场景收敛问题的效率,远高于依赖现实场景的数据闭环,因此布局世界模型已成为行业共识,无论车端采用何种方案,都在借助云端世界模型优化性能。
回望智能驾驶的路线之争,从分治算法到端到端,再到VLA、WA与世界模型的多元探索,看似流派林立、水火不容,实则背后已有诸多共性。MoE架构、云端世界模型等技术被广泛采用,小鹏VLA 2.0与华为WA也都走向了“直接映射控制信号”的核心逻辑。行业的标签化竞争,更多是出于市场需求的考量,而技术的底层逻辑正在不断趋同。
或许,智能驾驶没有唯一的“最终答案”。VLA的当下爆发,是技术迭代的必然结果;而WA、世界模型等方向的探索,则为未来预留了更多可能。路线的选择,本质上是企业对技术成熟度、市场节奏、核心目标的综合权衡——正如小马智行CTO楼天城所言:“做百辆以上无人车,世界模型最关键;对其他企业而言,VLA模型更利于卖车,大家的选择不同,只是因为目标不同。”在这场关于“更聪明驾驶”的竞赛中,路线的纷争从未停止,但技术前行的方向始终清晰:无论选择哪条路径,最终都要走向更安全、更可靠、更接近人类驾驶逻辑的智能驾驶未来。
本文来自微信公众号:AutoReport 汽车产经,编辑:甘猛,作者:于雷
