大迷信大模型成本下降,是业内最大幻觉

收录于 前沿科技 持续更新中
很多 AI 创业者都笃信一件事 —— 模型会降价。
只要模型降价,成本就能下降,今天勉强打平甚至亏损的收入状况,就能好转。
生意就能做下去。
连 a16z 都在说,大语言模
很多 AI 创业者都笃信一件事 —— 模型会降价。
只要模型降价,成本就能下降,今天勉强打平甚至亏损的收入状况,就能好转。
生意就能做下去。
连 a16z 都在说,大语言模型(LLM)成本正以每年 10 倍的速度下降。
但问题是,模型真的一直在降价吗?
Substack 专栏《mandates》的文章却认为,模型成本其实并未下降。“成本下降 10 倍是真的,但只限于性能老旧的模型。”
“市场需求永远盯着最好的语言模型,而最好模型的成本始终大致相同。”
如果现状确实如此,AI 创业的商业模式该怎么变?文章也做了探讨 —— 或许,还是那句老话:AI 创业,第一天就要考虑盈利。

 
以下为编译内容:
假设你创办了一家公司,清楚知道消费者每月付费上限是 20 美元。你可能觉得没关系,这是典型的风投打法:按成本收费,牺牲利润换增长。客户获取成本(CAC)、客户终身价值(LTV)这些账你都算过了。但有趣的是,你看到了 a16z 的图表:大语言模型推理成本正以每年 10 倍的速度下降。
于是你盘算:现在以 20 美元 / 月做到收支平衡,明年模型成本降 10 倍,利润率就能飙升到 90%。亏损只是暂时的,盈利是必然的。
这个逻辑简单到风投助理都能看懂:
第一年:20 美元 / 月实现盈亏平衡;
第二年:成本降 10 倍,利润率 90%;
第三年:开始挑游艇。
这是个能理解的策略:“LLM 推理成本每 6 个月降 3 倍,我们没问题。”
然而 18 个月后,利润率却糟到了极点。Windsurf 已经倒闭清算,Anthropic 旗下的 Claude Code 本周也被迫取消了最初每月 200 美元的无限使用套餐。
行业仍在 “亏损”。模型确实变便宜了,GPT-3.5 的成本只有过去的十分之一,但不知为何,利润率反而更差了。
问题出在哪?


一、降价的是旧版模型,但没人用

GPT-3.5 的价格确实比以前便宜了 10 倍,但它就像 iPhone 发布会上的翻盖手机,早已无人问津。
当一款新模型作为最先进技术(SOTA)发布时,99% 的市场需求会立刻转移过去 —— 消费者也期待所用产品能跟上这种迭代。
我们来看看前沿模型的实际定价历史:
发现规律了吗?
GPT-4 以 60 美元定价推出时,即便上一代 GPT-3.5 便宜 26 倍,用户还是毫不犹豫选了前者;Claude 3 Opus 以 60 美元登场时,即便 GPT-4 已降价,人们仍转头投向 Claude。
成本下降 10 倍是真的,但只限于性能老旧的模型。
所以,“成本会下降” 策略的第一个 “支柱” 站不住脚:市场需求永远盯着 “最好的语言模型”,而最好模型的成本始终大致相同 —— 它代表着当前推理技术的成本边界。
就像指着 1995 年的本田思域说 “这车现在便宜多了”,完全文不对题。没错,那辆车是便宜了,但 2025 年款丰田凯美瑞的官方指导价依然是 3 万美元。
当你花时间与 AI 互动 —— 无论编程、写作还是思考,总会追求最高质量。没人会打开 Claude 后想:“要不换个差一点的版本给老板省点钱?” 我们是认知上的 “贪婪生物”,总想要能得到的最好 “大脑”,尤其当涉及宝贵的时间时。


二、模型的 token 消耗,远比想象中多

或许你会想:“好吧,但这仍在可控范围,大不了保持收支平衡?” 但这种想法太乐观了。
虽然每一代前沿模型的单位 token 价格没涨,但另一件更糟的事发生了:token 消耗量呈爆炸式增长。
过去,ChatGPT 回答一个单句问题,回复也是一句话;现在,一次 “深度研究” 要花 3 分钟规划、20 分钟阅读,再用 5 分钟重写报告;Claude 3 Opus 仅仅回应一句 “你好”,就能运行 20 分钟。
强化学习(RL)和测试阶段计算量(TTC)的激增,导致了一个没人预料的结果:AI 能处理的任务长度每 6 个月翻一番。过去返回 1000 个 token 的任务,现在需要 10 万个。

来源:Metr(数据平台)
按这个趋势推演,结果会很惊人:
现在,一次 20 分钟的 “深度研究” 成本约 1 美元;到 2027 年,我们会有能连续运行 24 小时不偏离主题的 AI Agent—— 结合前沿模型的固定价格,单次运行成本约 72 美元,而且是每天、每个用户,还能异步运行多个 Agent。
一旦能部署 AI Agent 异步执行 24 小时工作,我们不会只给一个指令等待结果,而是会成批调度它们。整个 AI 工作团队并行解决问题,消耗 API 的速度堪比 1999 年互联网泡沫时代。
必须强调:每月 20 美元的订阅费,甚至撑不起用户每天一次 1 美元的深度研究。但这正是行业未来的方向 —— 模型能力的每一次提升,本质上都是在提高单次任务能 “有效消耗” 的计算资源量。
就像造出更省油的发动机,却用省下的能效造了辆怪兽卡车。没错,每加仑油能跑得更远,但总油耗增加了 50 倍。
这就是导致 Windsurf 资金链危机的 “流动性挤压(Short Squeeze)”—— 任何采用 “固定费率订阅 + 高价值高 token 消耗功能” 商业模式的初创公司,都正面临同样的威胁。


三、200 刀的 Claude Max 会员,也抵不过 “循环 tokens” 用法

Anthropic 的 Claude Code “无限量套餐” 实验,是业内应对这场危机最复杂的尝试。他们几乎用尽了办法,最终还是失败了。
他们的策略其实很巧妙:
定价提高 10 倍:Cursor 定价 20 美元 / 月时,Claude Code 定 200 美元 / 月,为亏损留了更多缓冲;
根据负载自动切换模型:负载过高时,从 Opus 模型(75 美元 / 百万 tokens)切到 Sonnet 模型(15 美元 / 百万 tokens),用 Haiku 模型优化阅读 —— 就像 AWS 的自动扩缩容,但服务对象是 “大脑”。他们很可能把这种逻辑直接嵌入模型权重,这或许是我们会越来越常见的范式转变;
将计算任务转移到用户设备:既然用户的 CPU 闲着,何必启动自家沙盒环境?
然而,即便工程设计如此出色,token 消耗量依旧爆发式增长。

来源:Viberank(数据平台)
 
一百亿个 token,相当于一个月内消耗 1.25 万本《战争与和平》。
这怎么可能?即使用户每次运行 10 分钟,怎么会消耗 100 亿个 token?
事实证明,10 到 20 分钟的连续运行时长,刚好够用户摸索出 “循环 tokens” 的用法。一旦 token 消耗与 “用户在应用内的时长” 脱钩,消耗就会失控:让 Claude 执行任务、检查成果、重构内容、优化细节,循环往复,直到公司破产。
用户摇身变成 “API 编排者”,用 Anthropic 的成本 24 小时不间断运行代码转换引擎。从 “聊天交互” 到 “Agent 自主运行” 的演进一夜完成,token 消耗量激增 1000 倍 —— 这是阶段性突变,而非渐进式增长。
因此,Anthropic 不得不取消无限量套餐。他们本可以尝试把定价提到 200 美元 / 月,但关键教训不在于 “定价不够高”,而在于这个新世界里,没有任何订阅模式能提供无限使用权限。
这意味着,固定订阅价格在新世界里行不通了。商业模式的数学逻辑已彻底崩塌。


四、都知道要 “按量定价”,但没人敢先尝试

这让其他公司陷入两难。
每家 AI 公司都知道,基于使用量的定价能救自己,但也知道这行不通。当你以合理的 0.01 美元 / 1000 token 定价时,竞争对手却提供每月 20 美元无限用 —— 用户会选谁?
这是典型的 “囚徒困境”:
所有人都按使用量计费→行业可持续;
所有人都按固定费率→陷入 “比烂竞争”(race to the bottom);
你按使用量,别人按固定费率→你独自出局;
你按固定费率,别人按使用量→你短期获胜(之后仍会出局)。
因此,所有人都选择了 “背叛”:补贴重度用户,发布指数级增长图表,最终发布 “重要定价调整” 公告。
Cursor、Lovable、Replit 都清楚其中的数学逻辑,但他们选了 “当下求增长,未来求盈利,把破产问题留给下一任 CEO”。
说实话,这或许没错。在 “圈地运动” 中,市场份额比利润率重要 —— 只要风投愿意持续注资。
不妨问问 Jasper 公司:当资金链断裂时,会发生什么?


五、如何找到合适的商业模式?

有没有可能避开 “token 流动性挤压”?
最近有传言,Cognition 正以 150 亿美元估值融资,其年度经常性收入(ARR)据称不到 1 亿美元(我猜可能更接近 5000 万美元)。相比之下,Cursor 在 ARR 达 5 亿美元、增长曲线更陡峭时,估值仅 100 亿美元。Cognition 收入不及 Cursor 的八分之一,估值却是其 1.5 倍。风投掌握了哪些我们不知道的信息?两家都主打 “AI coding Agent”,难道 Cognition 找到了跳出 “死亡螺旋” 的方法?
目前有三种可能的出路:
从一开始就采用 “按使用量计费”
没有补贴,没有 “先获取、后变现”,只有诚实的经济模式。理论上很棒。
但问题是:现在找不到任何采用 “按使用量计费” 且实现爆发式增长的消费级 AI 公司。消费者讨厌计量收费 —— 他们宁愿为无限套餐多付钱,也不愿被意外账单吓到。每一个成功的消费者订阅服务,Netflix、Spotify、ChatGPT,都是包月制。一旦引入计量收费,增长就会停滞。
建立极高的切换成本,从而获得高利润率
这是 Devin 看好的方向。他们最近宣布与花旗银行和高盛合作,将 Devin 部署到每家公司的 4 万名软件工程师中。按每月 20 美元计算,这是千万美元级项目。
但问题来了:你更愿意从高盛获得 1000 万美元 ARR,还是从专业消费级开发者那里获得 5 亿美元?答案很明显:长达六个月的落地实施、合规审查、安全审计、繁琐采购流程,意味着从高盛拿到的收入虽难争取,但一旦到手,客户几乎不会流失。
只有当银行的唯一决策者把声誉押在你身上时,才能签下这些合同 —— 所有人都会尽全力确保项目成功。这也是为什么除科技巨头外,最大的软件公司几乎都是 “核心系统服务商”,比如客户关系管理(CRM)、企业资源计划(ERP)、电子健康记录(EHR)系统。
它们的利润率能达 80%-90%,因为客户切换成本越高,对价格敏感度越低。当竞争对手出现时,你的产品早已深度嵌入客户业务流程,切换供应商需要再经历六个月销售周期 —— 不是不能换,而是客户的 CFO 宁愿辞职,也不愿再经历一次供应商评估。
进行垂直整合,从基础设施上盈利
这是 Replit 的玩法:将代码 AI 工具与应用托管、数据库管理、部署监控、日志记录等服务捆绑销售。每个 token 亏一点,但在新一代开发者的技术栈中,从其他所有环节捕获价值。看看 Replit 的垂直整合程度就知道了。

来源:@mattppal(推特用户)

将 AI 作为 “引流品”,推动用户使用其具有 “类 AWS” 竞争力的其他服务。你卖的不是 “推理服务”,而是其他所有服务,推理成本只是营销开支。这个模式的巧妙之处在于,代码生成自然会增加对托管服务的需求 —— 每个应用都需要运行环境,每个数据库都需要管理,每次部署都需要监控。就让 OpenAI 和 Anthropic 去把推理服务价格竞争到零,你去做别的事。
那些仍在坚持 “固定费率、不计成本增长” 的公司?它们只是 “行走的僵尸”,葬礼定在今年第四季度,且成本高昂。


六、结语

我们总看到创始人引用 “模型明年会便宜 10 倍”,但到那时,用户会期望 20 倍以上的回报。
还记得 Windsurf 吗?因为 Cursor 带来的盈亏平衡压力,他们根本找不到破局方法。即便是 Anthropic 这样拥有全球最垂直整合应用层的公司,也无法让固定订阅的无限使用模式运转。
虽然《levered beta is all you need》的核心结论 “早入局胜过聪明” 仍成立,但 “没有规划地早入局” 只会更早失败。谷歌不会为 “负利润率业务” 开 24 亿美元支票;当 “以后再说” 意味着你的 AWS 账单超过收入时,“以后” 就不复存在了。
那么,这样的环境下该如何创业?简而言之:成为 “新云厂商”(neocloud)。至少,模型明年的成本会降至 1/10。

推荐前沿科技

苏公网安备 11011xxxxx号 苏ICP备2025192616号-1