只要模型降价,成本就能下降,今天勉强打平甚至亏损的收入状况,就能好转。
生意就能做下去。
连 a16z 都在说,大语言模型(LLM)成本正以每年 10 倍的速度下降。
但问题是,模型真的一直在降价吗?
Substack 专栏《mandates》的文章却认为,模型成本其实并未下降。“成本下降 10 倍是真的,但只限于性能老旧的模型。”
“市场需求永远盯着最好的语言模型,而最好模型的成本始终大致相同。”
如果现状确实如此,AI 创业的商业模式该怎么变?文章也做了探讨 —— 或许,还是那句老话:AI 创业,第一天就要考虑盈利。

假设你创办了一家公司,清楚知道消费者每月付费上限是 20 美元。你可能觉得没关系,这是典型的风投打法:按成本收费,牺牲利润换增长。客户获取成本(CAC)、客户终身价值(LTV)这些账你都算过了。但有趣的是,你看到了 a16z 的图表:大语言模型推理成本正以每年 10 倍的速度下降。

这个逻辑简单到风投助理都能看懂:
第一年:20 美元 / 月实现盈亏平衡;
第二年:成本降 10 倍,利润率 90%;
第三年:开始挑游艇。
这是个能理解的策略:“LLM 推理成本每 6 个月降 3 倍,我们没问题。”
然而 18 个月后,利润率却糟到了极点。Windsurf 已经倒闭清算,Anthropic 旗下的 Claude Code 本周也被迫取消了最初每月 200 美元的无限使用套餐。
行业仍在 “亏损”。模型确实变便宜了,GPT-3.5 的成本只有过去的十分之一,但不知为何,利润率反而更差了。
问题出在哪?
一、降价的是旧版模型,但没人用
GPT-3.5 的价格确实比以前便宜了 10 倍,但它就像 iPhone 发布会上的翻盖手机,早已无人问津。当一款新模型作为最先进技术(SOTA)发布时,99% 的市场需求会立刻转移过去 —— 消费者也期待所用产品能跟上这种迭代。
我们来看看前沿模型的实际定价历史:

GPT-4 以 60 美元定价推出时,即便上一代 GPT-3.5 便宜 26 倍,用户还是毫不犹豫选了前者;Claude 3 Opus 以 60 美元登场时,即便 GPT-4 已降价,人们仍转头投向 Claude。
成本下降 10 倍是真的,但只限于性能老旧的模型。
所以,“成本会下降” 策略的第一个 “支柱” 站不住脚:市场需求永远盯着 “最好的语言模型”,而最好模型的成本始终大致相同 —— 它代表着当前推理技术的成本边界。
就像指着 1995 年的本田思域说 “这车现在便宜多了”,完全文不对题。没错,那辆车是便宜了,但 2025 年款丰田凯美瑞的官方指导价依然是 3 万美元。
当你花时间与 AI 互动 —— 无论编程、写作还是思考,总会追求最高质量。没人会打开 Claude 后想:“要不换个差一点的版本给老板省点钱?” 我们是认知上的 “贪婪生物”,总想要能得到的最好 “大脑”,尤其当涉及宝贵的时间时。
二、模型的 token 消耗,远比想象中多
或许你会想:“好吧,但这仍在可控范围,大不了保持收支平衡?” 但这种想法太乐观了。虽然每一代前沿模型的单位 token 价格没涨,但另一件更糟的事发生了:token 消耗量呈爆炸式增长。
过去,ChatGPT 回答一个单句问题,回复也是一句话;现在,一次 “深度研究” 要花 3 分钟规划、20 分钟阅读,再用 5 分钟重写报告;Claude 3 Opus 仅仅回应一句 “你好”,就能运行 20 分钟。
强化学习(RL)和测试阶段计算量(TTC)的激增,导致了一个没人预料的结果:AI 能处理的任务长度每 6 个月翻一番。过去返回 1000 个 token 的任务,现在需要 10 万个。

来源:Metr(数据平台)
现在,一次 20 分钟的 “深度研究” 成本约 1 美元;到 2027 年,我们会有能连续运行 24 小时不偏离主题的 AI Agent—— 结合前沿模型的固定价格,单次运行成本约 72 美元,而且是每天、每个用户,还能异步运行多个 Agent。
一旦能部署 AI Agent 异步执行 24 小时工作,我们不会只给一个指令等待结果,而是会成批调度它们。整个 AI 工作团队并行解决问题,消耗 API 的速度堪比 1999 年互联网泡沫时代。
必须强调:每月 20 美元的订阅费,甚至撑不起用户每天一次 1 美元的深度研究。但这正是行业未来的方向 —— 模型能力的每一次提升,本质上都是在提高单次任务能 “有效消耗” 的计算资源量。
就像造出更省油的发动机,却用省下的能效造了辆怪兽卡车。没错,每加仑油能跑得更远,但总油耗增加了 50 倍。
这就是导致 Windsurf 资金链危机的 “流动性挤压(Short Squeeze)”—— 任何采用 “固定费率订阅 + 高价值高 token 消耗功能” 商业模式的初创公司,都正面临同样的威胁。
三、200 刀的 Claude Max 会员,也抵不过 “循环 tokens” 用法
Anthropic 的 Claude Code “无限量套餐” 实验,是业内应对这场危机最复杂的尝试。他们几乎用尽了办法,最终还是失败了。他们的策略其实很巧妙:
定价提高 10 倍:Cursor 定价 20 美元 / 月时,Claude Code 定 200 美元 / 月,为亏损留了更多缓冲;
根据负载自动切换模型:负载过高时,从 Opus 模型(75 美元 / 百万 tokens)切到 Sonnet 模型(15 美元 / 百万 tokens),用 Haiku 模型优化阅读 —— 就像 AWS 的自动扩缩容,但服务对象是 “大脑”。他们很可能把这种逻辑直接嵌入模型权重,这或许是我们会越来越常见的范式转变;
将计算任务转移到用户设备:既然用户的 CPU 闲着,何必启动自家沙盒环境?
然而,即便工程设计如此出色,token 消耗量依旧爆发式增长。

来源:Viberank(数据平台)
这怎么可能?即使用户每次运行 10 分钟,怎么会消耗 100 亿个 token?
事实证明,10 到 20 分钟的连续运行时长,刚好够用户摸索出 “循环 tokens” 的用法。一旦 token 消耗与 “用户在应用内的时长” 脱钩,消耗就会失控:让 Claude 执行任务、检查成果、重构内容、优化细节,循环往复,直到公司破产。
用户摇身变成 “API 编排者”,用 Anthropic 的成本 24 小时不间断运行代码转换引擎。从 “聊天交互” 到 “Agent 自主运行” 的演进一夜完成,token 消耗量激增 1000 倍 —— 这是阶段性突变,而非渐进式增长。
因此,Anthropic 不得不取消无限量套餐。他们本可以尝试把定价提到 200 美元 / 月,但关键教训不在于 “定价不够高”,而在于这个新世界里,没有任何订阅模式能提供无限使用权限。
这意味着,固定订阅价格在新世界里行不通了。商业模式的数学逻辑已彻底崩塌。
四、都知道要 “按量定价”,但没人敢先尝试
这让其他公司陷入两难。每家 AI 公司都知道,基于使用量的定价能救自己,但也知道这行不通。当你以合理的 0.01 美元 / 1000 token 定价时,竞争对手却提供每月 20 美元无限用 —— 用户会选谁?
这是典型的 “囚徒困境”:
所有人都按使用量计费→行业可持续;
所有人都按固定费率→陷入 “比烂竞争”(race to the bottom);
你按使用量,别人按固定费率→你独自出局;
你按固定费率,别人按使用量→你短期获胜(之后仍会出局)。
因此,所有人都选择了 “背叛”:补贴重度用户,发布指数级增长图表,最终发布 “重要定价调整” 公告。
Cursor、Lovable、Replit 都清楚其中的数学逻辑,但他们选了 “当下求增长,未来求盈利,把破产问题留给下一任 CEO”。
说实话,这或许没错。在 “圈地运动” 中,市场份额比利润率重要 —— 只要风投愿意持续注资。
不妨问问 Jasper 公司:当资金链断裂时,会发生什么?
五、如何找到合适的商业模式?
有没有可能避开 “token 流动性挤压”?最近有传言,Cognition 正以 150 亿美元估值融资,其年度经常性收入(ARR)据称不到 1 亿美元(我猜可能更接近 5000 万美元)。相比之下,Cursor 在 ARR 达 5 亿美元、增长曲线更陡峭时,估值仅 100 亿美元。Cognition 收入不及 Cursor 的八分之一,估值却是其 1.5 倍。风投掌握了哪些我们不知道的信息?两家都主打 “AI coding Agent”,难道 Cognition 找到了跳出 “死亡螺旋” 的方法?
目前有三种可能的出路:
从一开始就采用 “按使用量计费”
没有补贴,没有 “先获取、后变现”,只有诚实的经济模式。理论上很棒。但问题是:现在找不到任何采用 “按使用量计费” 且实现爆发式增长的消费级 AI 公司。消费者讨厌计量收费 —— 他们宁愿为无限套餐多付钱,也不愿被意外账单吓到。每一个成功的消费者订阅服务,Netflix、Spotify、ChatGPT,都是包月制。一旦引入计量收费,增长就会停滞。
建立极高的切换成本,从而获得高利润率
这是 Devin 看好的方向。他们最近宣布与花旗银行和高盛合作,将 Devin 部署到每家公司的 4 万名软件工程师中。按每月 20 美元计算,这是千万美元级项目。但问题来了:你更愿意从高盛获得 1000 万美元 ARR,还是从专业消费级开发者那里获得 5 亿美元?答案很明显:长达六个月的落地实施、合规审查、安全审计、繁琐采购流程,意味着从高盛拿到的收入虽难争取,但一旦到手,客户几乎不会流失。
只有当银行的唯一决策者把声誉押在你身上时,才能签下这些合同 —— 所有人都会尽全力确保项目成功。这也是为什么除科技巨头外,最大的软件公司几乎都是 “核心系统服务商”,比如客户关系管理(CRM)、企业资源计划(ERP)、电子健康记录(EHR)系统。
它们的利润率能达 80%-90%,因为客户切换成本越高,对价格敏感度越低。当竞争对手出现时,你的产品早已深度嵌入客户业务流程,切换供应商需要再经历六个月销售周期 —— 不是不能换,而是客户的 CFO 宁愿辞职,也不愿再经历一次供应商评估。
进行垂直整合,从基础设施上盈利
这是 Replit 的玩法:将代码 AI 工具与应用托管、数据库管理、部署监控、日志记录等服务捆绑销售。每个 token 亏一点,但在新一代开发者的技术栈中,从其他所有环节捕获价值。看看 Replit 的垂直整合程度就知道了。

来源:@mattppal(推特用户)
将 AI 作为 “引流品”,推动用户使用其具有 “类 AWS” 竞争力的其他服务。你卖的不是 “推理服务”,而是其他所有服务,推理成本只是营销开支。这个模式的巧妙之处在于,代码生成自然会增加对托管服务的需求 —— 每个应用都需要运行环境,每个数据库都需要管理,每次部署都需要监控。就让 OpenAI 和 Anthropic 去把推理服务价格竞争到零,你去做别的事。
那些仍在坚持 “固定费率、不计成本增长” 的公司?它们只是 “行走的僵尸”,葬礼定在今年第四季度,且成本高昂。
六、结语
我们总看到创始人引用 “模型明年会便宜 10 倍”,但到那时,用户会期望 20 倍以上的回报。还记得 Windsurf 吗?因为 Cursor 带来的盈亏平衡压力,他们根本找不到破局方法。即便是 Anthropic 这样拥有全球最垂直整合应用层的公司,也无法让固定订阅的无限使用模式运转。
虽然《levered beta is all you need》的核心结论 “早入局胜过聪明” 仍成立,但 “没有规划地早入局” 只会更早失败。谷歌不会为 “负利润率业务” 开 24 亿美元支票;当 “以后再说” 意味着你的 AWS 账单超过收入时,“以后” 就不复存在了。
那么,这样的环境下该如何创业?简而言之:成为 “新云厂商”(neocloud)。至少,模型明年的成本会降至 1/10。