大模型公司的未来,藏在 OpenAI 的 “命门” 里

收录于 AGI 持续更新中
在大模型行业,有一条公认的底层逻辑:Scaling Law 决定了模型能力的上限,而算力成本控制则决定了商业化的下限。当行业从 “拼参数规模” 的野蛮生长阶段,进入 “
在大模型行业,有一条公认的底层逻辑:Scaling Law 决定了模型能力的上限,而算力成本控制则决定了商业化的下限。当行业从 “拼参数规模” 的野蛮生长阶段,进入 “拼算力效率” 的精细化竞争阶段,如何用更少的算力兑换更强的 “智力输出”,成为所有玩家的核心命题。而 “路由(Routing)” 功能 —— 这个曾让 OpenAI GPT-5 “发布即翻车” 的技术,恰恰是这场效率战的关键突破口。


一、降本先行:行业早已用脚投票,算力效率是核心竞争力

在 OpenAI 为路由功能 “踩坑” 之前,整个行业早已用实际行动证明:算力成本控制不是选择题,而是生存题。无论是开源赛道的黑马,还是巨头的架构迭代,都在围绕 “降本” 做文章。

1. DeepSeek 的开源破局:10% 成本的颠覆性冲击

2024 年初,DeepSeek 在国外开源社区的爆火,并非偶然。其核心竞争力在于将同性能模型的训练与推理算力成本压缩至行业平均水平的 10% 以内—— 这意味着,过去需要 1000 万美元训练的模型,现在用 100 万就能实现同等效果;过去一次推理需要 100 单位算力,现在仅需 10 单位。
这种降本不是 “以质换价”,而是通过模型结构优化、推理策略调整实现的 “效率革命”。对中小开发者而言,这直接拉低了大模型的使用门槛;对行业而言,它证明了 “算力不是唯一变量”,效率优化能释放出远超参数堆砌的商业价值。

2. MoE 架构的全面替代:从 “全量计算” 到 “按需激活”

如果说 DeepSeek 是开源赛道的降本标杆,那么 MoE(混合专家模型)架构的崛起,则是巨头们的集体选择。GPT-4 发布后,MoE 迅速取代传统稠密架构,成为大模型开发商的 “默认选项”,核心原因只有一个:大幅降低推理算力消耗
传统稠密架构中,所有参数会为每一个请求 “全量工作”,即便问题简单,也需要调动整个模型的算力;而 MoE 架构通过 “稀疏激活”,让每个请求只触发部分 “专家模块”—— 比如一个 1.8 万亿参数的 MoE 模型,实际参与计算的参数可能仅 3000 亿。这种 “按需分配” 的模式,在保证模型能力的同时,将推理算力成本降低 30%-50%,直接解决了 “大模型越做越大,算力消耗指数级上涨” 的死循环。


二、GPT-5 的 “路由冒险”:不是鲁莽,而是别无选择

当 DeepSeek 和 MoE 架构都在降本赛道上快速推进时,OpenAI 却在 GPT-5 发布时,因强推路由功能陷入 “降本增笑” 的争议 —— 用户吐槽 “简单问题被复杂模型拖延,复杂问题被简单模型敷衍”,最终只能回滚 GPT-4o、开放手动切换功能。但这场看似 “鲁莽” 的冒险,背后藏着 OpenAI 的深层焦虑。

1. 表层原因:为 “AI 超级 APP” 扫清用户障碍

OpenAI 的目标,是将 ChatGPT 打造成 “AI 时代的超级 APP”—— 就像现在的微信、抖音,普通用户无需理解技术细节,就能直接使用。但在 GPT-5 发布前,OpenAI 已并行推出 5 个以上模型(如基础模型、推理模型、代码模型等),即便是重度用户,也需要反复试错才能找到 “适配任务的模型”;对零基础用户而言,“选模型” 本身就是一道门槛。
路由功能的设计初衷,就是替用户做选择:自动判断问题复杂度,将 “查天气”“写短句” 等简单任务分配给低算力的基础模型,将 “数学推理”“论文写作” 等复杂任务分配给高算力的推理模型。对 OpenAI 而言,这不是 “要不要做” 的问题,而是 “要成为超级 APP,就必须做” 的必经之路 —— 总不能让用户在使用 ChatGPT 前,先学习 “如何辨别模型适用场景”。

2. 深层原因:数亿用户的 “算力账单” 压顶

如果说 “优化用户体验” 是表层诉求,那么 “控制算力成本” 才是 OpenAI 的核心焦虑。作为服务数亿用户的大模型平台,OpenAI 面临的算力压力远超行业平均水平 —— 而路由功能,是缓解这一压力的 “关键杠杆”。
根据学术界研究和 OpenAI 公开数据,推理模型与非推理模型的资源消耗差距悬殊:
  • 算力差距:推理模型的算力消耗是基础模型的 5-6 倍;复杂问题通过 “思维链” 推理时,内部消耗的 token 数可能高达上万个,是简单问题的 10 倍以上。
  • 延迟差距:推理模型回答复杂问题的时间,是基础模型的 60 倍 —— 比如基础模型 1 秒能回答的 “今天星期几”,推理模型可能需要 1 分钟。
  • 性价比差距:即便推理模型消耗了 5 倍算力、60 倍时间,其答案准确性仅比基础模型高 5% 左右。

这意味着,只要路由功能能识别出 10% 的简单任务,并用基础模型处理,就能为 OpenAI 降低 8% 的算力成本(按 5:1 的算力比计算);若识别率提升至 30%,成本降幅将超过 20%。对 OpenAI 而言,这不是 “要不要赌”,而是 “不赌,商业模式就难以为继”—— 毕竟,即便算力持续扩张,也跟不上用户请求量和任务复杂度的增长速度。


三、路由功能的技术深水区:比 “亚马逊推荐系统” 更难的多目标优化

路由功能看似简单 ——“给问题分个类,再匹配模型”,但实际难度远超外界想象。外媒曾向伊利诺伊大学厄巴纳 - 香槟分校(UIUC)的计算机助理教授求证,得到的答案是:“这可能是亚马逊推荐系统级别的问题,需要大量专家投入数年才能优化到满意水平。”

1. 本质是 “多目标 + 强约束” 的实时博弈

路由功能的核心不是 “分对类”,而是在质量、延迟、成本、算力容量、成功率五个维度间做实时平衡。
比如:
  • 若优先 “质量”,所有问题都用推理模型,会导致算力耗尽、用户排队;
  • 若优先 “成本”,简单问题全部分给基础模型,复杂问题可能被误判,导致答案出错;
  • 若优先 “延迟”,则需要避开拥堵的模型,但可能被迫使用次优模型,牺牲部分准确性。
这种平衡比亚马逊推荐系统更复杂:推荐系统推荐错商品,最多影响一次购买;但路由系统匹配错模型,直接影响用户对 ChatGPT 的核心信任 —— 而信任,是大模型产品的生命线。

2. DeepSeek 的 “混合模型” 尝试:从 “外部路由” 到 “内部融合”

为突破路由的效率瓶颈,DeepSeek 在 V3.1 版本中做了更激进的尝试:不做 “外部路由”(先判断再选模型),而是将推理模块与基础模块直接内置到同一个模型中,让模型自己决定 “何时启用推理能力,何时简化计算”。
从用户反馈来看,这种 “内部融合” 确实见效:
  • 速度更快:DeepSeek-V3.1-Think 的思考时间比前代 R1 缩短 30% 以上;
  • 输出更精简:简单问题的推理过程缩短 10%,正式输出从平均 2100 字压缩到 1000 字,间接降低了 token 消耗(token 数与算力成本直接挂钩)。
但代价是 “稳定性妥协”:模型不时出现无意义的 “极” 字 bug,中英夹杂的问题也更严重 —— 这说明,即便像 DeepSeek 这样的顶尖团队,也未能完全解决 “推理与非推理模块协同” 的稳定性问题。而 OpenAI 和 DeepSeek 的先后 “踩坑”,恰恰印证了路由功能的技术难度:它不是单一技术问题,而是模型架构、语义理解、工程优化的综合挑战。



四、算力渴求下的必然:路由是 “算力兑换智力” 的关键杠杆

OpenAI 的路由冒险,本质上是 “AI 成本悖论” 下的必然选择 ——token 单价持续下降,但模型能力提升让 “原本不经济的任务变得经济”(比如用大模型处理简单客服问题),反而推高了 token 总需求量,进一步加剧算力紧张。
为应对这一悖论,OpenAI 已启动激进的算力扩张计划:
  • 代号 “Stargate” 的基础设施项目:2025 年 7 月与 Oracle 合作,在美国新增 4.5GW 数据中心(相当于 450 万个标准服务器的算力承载能力);
  • 布局印度市场:计划在新德里设办公室,建设至少 1GW 数据中心,对接印度(OpenAI 第二大用户市场)的用户增长与本地算力需求。
但 Sam Altman 反复强调的 “2025 年底上线 100 万片 GPU,长远目标 1 亿片 GPU”,恰恰暴露了一个真相:算力扩张只能解决 “有没有” 的问题,路由功能才能解决 “用得好不好” 的问题。即便有 1 亿片 GPU,若所有请求都用推理模型,依然会迅速耗尽算力;反之,若路由能将推理模型的 “昂贵算力” 精准分配给真正需要的任务,就能让 100 万片 GPU 发挥出 200 万片的效果。
从大模型的第一性原理来看,所有公司的终极目标都是提升 “算力兑换智力” 的效率:用同样的算力,输出更强的能力;或输出同样的能力,消耗更少的算力。而路由功能,正是这场 “效率战” 的核心杠杆 —— 它不仅决定了大模型公司的成本控制能力,更决定了其能否在 “质量 - 延迟 - 成本” 的三角中找到平衡点,最终实现商业化的可持续。


结语:路由不是 “过渡技术”,而是行业的 “基础设施”

如今,路由功能已不再是 OpenAI 或 DeepSeek 的 “独角戏”:第三方平台 OpenRouter 将 “自动路由与回退” 做成基建(主模型拥堵时自动切换次优模型);微软 Azure 则将 “多模型路由” 作为 AI 云服务的核心卖点 —— 这说明,路由已从 “可选功能” 变成 “行业标配”。
GPT-5 的路由翻车,不是 “路由不该做”,而是 “做早了、做急了”;DeepSeek 的混合模型波动,也不是 “融合路线错了”,而是技术探索必然的试错。对大模型行业而言,路由功能的成熟度,将直接决定 “算力红利能否转化为商业红利”—— 而谁能先闯过这道 “生死关”,谁就能在下一代大模型竞争中占据先机。

推荐AGI

苏公网安备 11011xxxxx号 苏ICP备2025192616号-1