竞赛的激烈程度远超想象。据外媒披露,Meta与OpenAI内部已悄然兴起AI使用排行榜,工程师们争相刷新Token消耗纪录,其中一名工程师单周消耗竟达2100亿个Token,这一数字相当于33个维基百科的文本总量。高昂的消耗背后,是惊人的成本——有人每月的AI账单高达15万美元,甚至爱立信驻斯德哥尔摩的一名工程师,在Claude上的花费超过了自身工资,而这笔巨额开支最终由公司埋单。如今,Token预算已不再是简单的工具成本,更成为工程师群体的新型工作福利,正如曾经风靡科技公司的免费零食、免费午餐,成为吸引人才的重要筹码。
这场消耗竞赛的背后,是企业层面的明确导向。早在2025年4月,Shopify CEO托比·吕特克就发布内部备忘录,明确提出“AI使用是Shopify的基线预期”,要求所有团队在申请新人力前,必须先证明该工作无法通过AI完成,同时将AI使用情况正式纳入绩效考核。紧随其后,Meta也宣布自2026年起,将“AI驱动的影响力”纳入所有员工的绩效评估体系。当Token消耗量正式写入KPI,它已不再是个人技术能力的体现,更成为一种组织层面的行为信号,折射出企业对AI转型的极致追求。
企业的动作的同时,产业层面的布局也在密集展开,将Token的价值推向新的高度。3月16日,英伟达CEO黄仁勋在GTC大会上给出了一个重磅定义:Token是“AI时代的基石”,并断言它将成为“最值钱的大宗商品”。仅仅一天后,阿里巴巴便迅速跟进,宣布成立由CEO吴泳铭直接负责的Alibaba Token Hub事业群,定位明确——“创造Token、输送Token、应用Token”,彰显了巨头对Token生态的绝对重视。
图:黄仁勋在GTC演讲中展示了Token成本与收入关系的图表,将数据中心分为免费层、中级层、高级层和Premium层来分配算力,并展示Vera Rubin芯片相比Grace Blackwell带来5倍收入提升的预测。
一、拆解消耗真相:Token早已不是“标准品”
2100亿Token的惊人数字,很容易让人陷入“用量即能力”的误区,但要读懂这一数字的真实含义,首先要打破一个固有认知:Token并非统一标准的计费单位。如今的Token定价体系,早已从简单的“输入+输出”二元模式,演变成复杂的分层计费体系,同样一个“Token”,在不同使用场景下,价格差距可达数倍甚至十余倍。
图:Tokscale全球Token消耗排行榜,Tokscale是一个开源Token使用量追踪和排行榜工具,支持Claude Code、Cursor、OpenCode、Codex等多个平台,用户可以提交数据参与全球排名
更值得注意的是,真正拉高AI账单的,早已不只是模型本身的Token调用费。OpenAI当前的价目表清晰显示,Web Search已按模型类型区分收费:面向GPT-4.1、GPT-4o等模型的网页搜索,每千次收费10美元,而面向GPT-5等高端推理模型的网页搜索,每千次收费高达25美元。除此之外,File Search每千次调用收费2.50美元,外加向量存储每GB每天0.10美元(前1GB免费);代码容器也成为独立计费项,1GB容器收费0.03美元,4GB、16GB、64GB容器则对应更高梯度的价格,且从2026年3月31日起,计费方式将切换为按每20分钟一个session per container计算。
这种“拆分式计费”已成为行业主流。Google的Vertex AI自2026年2月11日起,也将Agent Engine中的Code Execution、Sessions和Memory Bank纳入独立收费体系,不再笼统打包计价,而是按照vCPU小时和GiB内存小时分别计费。这意味着,如今谈论“大模型价格”,早已不能只盯着Token单价,大模型厂商真正售卖的,是一整套集运行、存储、搜索、工具调用、持续执行为一体的AI基础能力,Token只是这套能力体系中的一个计费节点。

图:OpenAI 定价页面截图,Token之外的多层收费结构(Web Search、File Search、Container等独立计费项)
二、矛盾核心:Token越便宜,账单为何越贵?
若单看模型API的表面价格,Token的“性价比”确实在不断提升,甚至逼近“白菜价”。Anthropic的Opus模型,从上一代的15美元/百万Token降至如今的5美元,降幅达三分之二;DeepSeek V3.2更是将价格压至0.28美元/百万Token;Google Gemini 2.5 Flash Lite的价格低至约0.10美元/百万Token。中国模型的价格优势更为突出。据OpenRouter数据显示,中国大模型的Token单价,仅为海外竞品的六分之一到十分之一。即便是腾讯云混元HY2.0 Instruct在结束公测补贴、涨价超过460%后,其输入价格折合约0.62美元/百万Token,仍低于Anthropic最便宜的Haiku 4.5(1美元/百万Token),不足Sonnet 4.6价格的五分之一。

图:Artificial Analysis维护着一个实时更新的LLM排行榜,不同模型之间价格梯度巨大
但诡异的是,企业和个人的AI总使用成本,并没有随着Token单价的下降而减少,反而呈现持续攀升的态势。背后有三个核心机制在共同作用,彻底拉开了Token牌面价格与实际成本的差距。
其一,模型“变聪明”的代价,是“话多”导致的Token消耗激增。Artificial Analysis的报告指出,推理模型的平均输出Token使用量,约是非推理模型的5.5倍。如今,Anthropic和OpenAI都将模型的“extended thinking Token”(延伸思考Token)按输出Token计费,这意味着,模型思考得越深入、逻辑越缜密,输出的Token数量就越多,账单自然也就越长。虽然Token单价下降了,但完成同一个任务所需的Token总量,往往会翻好几倍,最终推高整体成本。
其二,Agent的普及,让Token从“一次消耗”变成“持续消耗”,这也是Tokenmaxxing狂潮的核心驱动力。工程师们并非在手动“刷Token”,而是通过AI编程智能体,实现24小时不间断运行——智能体自动拆分任务、调用工具、自我迭代,持续消耗Token。据阿里云的数据显示,单个Agent的算力消耗,是传统Chatbot的100到1000倍。这种持续消耗带来的总量爆发,极为惊人:中国整体日均Token消耗在2025年中突破30万亿,到2026年2月,已飙升至180万亿级别。
其三,生产Token的底层成本,正在持续上涨。2026年3月18日,阿里云和百度智能云同日宣布上调AI算力和存储产品价格,最高涨幅达34%;AWS在1月将机器学习容量块提价约15%;谷歌云也已宣布,将于5月起上调AI基础设施费用。某云计算行业专家坦言:“这次云市场的调价,主要由供需关系决定、由成本驱动,后续价格走势也将取决于整个供应链的价格变化。”
简单来说,模型就像是AI时代的“引擎”,而GPU、并行存储、高速网络、数据中心电力,就是“油钱、停车费和高速过路费”。虽然引擎本身的“单价”在下降,但所有配套成本都在上涨,Anthropic在发布Opus 4.6时专门强调“价格保持不变”,背后正是厂商在自行消化底层成本上涨的压力。这三个机制叠加,最终导致Token的牌面价格与真实任务成本之间,出现了一条越来越宽的裂缝。
三、焦虑的本质:消耗≠价值,Token经济的结构性缺陷
回归Tokenmaxxing的本质,这场轰轰烈烈的消耗竞赛,其实暗藏着一个致命的逻辑漏洞:排行榜只记录了Token的消耗量,却从未衡量过这些消耗带来的产出质量。一个工程师一周烧掉33个维基百科的Token,并不意味着他完成了33个维基百科价值的工作;一家企业的Token消耗总量翻倍,也不代表其生产力实现了翻倍。
当大厂将Token消耗量写入KPI、将Token预算作为员工福利时,我们不得不追问:这到底是AI生产力的真正跃升,还是一种“生产力表演”?这一问题,直指Token经济学最核心的结构性缺陷——行业至今没有建立起一套从Token消耗到任务完成的有效度量体系。Token衡量的是“投入”,而非“产出”;它记录的是“过程”,而非“结果”。一个Agent花费100万Token完成某项任务,另一个Agent仅用10万Token就完成了同样的任务,在Tokenmaxxing排行榜上,前者的排名反而更高,这种“反向激励”,恰恰背离了AI赋能的核心初衷。
Shopify CEO吕特克在内部备忘录中曾宣称,一些同事正通过AI贡献“此前认为不可能的10倍产出”,但他始终没有给出具体的衡量标准——何为“10倍产出”?是任务完成速度提升10倍,还是任务质量提升10倍?没有明确的度量标准,Token消耗就很容易沦为“数字游戏”。
由此,一种新型的职业焦虑悄然诞生:在AI时代,不通过高昂的Token消耗来展示自己的“AI生产力”,就有可能被视为“落伍”“不适应时代”。这种焦虑,其实与2000年代初每家企业争相建网站、2010年代每个品牌必须做App的逻辑如出一辙——技术采纳本身变成了一种信号,消耗量变成了衡量“先进性”的代理指标,而真实价值的衡量,却被无限推迟。
但这一轮的“技术跟风”,与以往有着本质区别:它的成本代价是实打实的。15万美元的月度AI账单、一周2100亿Token的消耗、持续涨价的底层算力和存储,Tokenmaxxing从来都不是免费的游戏。当成本足够高时,“烧Token”和“用Token创造价值”之间的区别,就会从抽象的哲学问题,变成关乎企业生存、个人发展的财务问题。
未来,Token单价仍会继续下降,这一点毫无悬念——随着技术的迭代、算力的普及,Token的“生产成本”必然会持续降低。但真正的焦虑,从来都不是“Token不够便宜”,而是“如何最高效地把Token变成任务完成率”。
对每一个程序员、每一家企业、每一个普通用户来说,衡量AI成本的核心标准,都不应是“每百万Token多少钱”,而应是“完成一件事究竟值得花多少Token”。这两个数字之间的差距,既是以Token为新度量衡的智能时代,下一阶段最大的商业机会,也是最深的成本陷阱。唯有跳出“消耗竞赛”的迷局,建立起以“价值产出”为核心的度量体系,Token才能真正发挥其“AI时代基石”的价值,而不是沦为一场无意义的数字狂欢。
本文来自微信公众号:腾讯科技,作者:晓静
