下一个月，大厂会开始翻 token 这笔账

行业变天 · 技术/管理 · 2026-05-30

我之前写过一篇 token 经济崩塌，讲的是供给侧——unlimited 订阅是模型厂的资本游戏，谁补贴谁，pricing 怎么收尾。这篇说需求侧：买单的公司，什么时候开始翻账，翻账时会发现自己什么都不知道。

窗口正在关闭

过去一年，公司里推 Claude Code / Codex / Cursor 的逻辑是「先用起来再说」。没人盯 token，因为相比工程师工资，这点钱不值一提。

但这个窗口快关了。逻辑很简单：当一个东西从「几个人试试」变成「整个团队天天用」，账单的绝对值就过了财务的注意力阈值。一旦有人在月度复盘里把这条单拎出来问一句「这钱花得值吗」，整个组织对 token 成本的态度就会从无视切到审视。

我赌这件事会在未来一个月内开始发生。不是因为钱真的多到付不起，而是因为「全员铺开」这个临界点，大厂大多在最近这个季度刚跨过。

审视会从三个角度来——而且三个都答不上

一问：钱到底花在哪了。

不是「这个月一共花了多少」，而是「哪个项目、哪个人、哪类任务在烧」。

这是第一个卡点。Anthropic 和 OpenAI 的官方后台只给你组织级的累计数字，落不到项目和人头。Codex 干脆没有像样的后台，数据躺在 ~/.codex/sessions/ 的 rollout 文件里。Cursor 是 per-session 的，没有聚合历史。

于是 manager 问「我们组哪个项目最烧 token」，没人答得上来。

二问：有多少是白烧的。

这是最容易被忽略、又最容易省的一块。两个典型来源：

缓存没命中。 prompt caching 能省掉大量重复 input，但如果用法让缓存频繁失效，等于每次都按全价重读上下文。命中率从 90% 掉到 60%，input 成本能差好几倍。绝大多数人根本不知道自己的命中率是多少。
反复重做。 任务跑到一半撞限额，或结果不对推倒重来，这些轮次的 token 全是沉没成本。重做率高的人，账单里相当一部分在交学费。

这两个数字，官方后台一个都不给。

三问：花得值不值。

终极问题，也最难量化。一种朴素口径是把 token 成本和实际产出（合并的 PR、修复的 bug、完成的任务）摆在一起。花一万 token 改出一个能上线的功能，和花一万 token 来回折腾没结果，是两回事。

但要算这个，你得能把「token 消耗」和「git 提交」对上号——而这两份数据，现在分别躺在两个谁也不认识谁的地方。

这是一个工具品类的窗口

注意上面三问的共同点：答案所需的数据其实都在你硬盘上——Claude Code 的 JSONL、Codex 的 rollout、Cursor 的 state.vscdb、还有 git log。缺的不是数据，是把它们落到「项目/人/任务」颗粒度并和产出对齐的那一层。

官方后台不会做这件事——它们的利益是让你看不清单位成本（看清了你就开始砍）。第三方 SaaS 面板要你把内部代码的使用数据上传，企业过不了合规。剩下的位置，留给本地优先的成本可观测工具。

我自己在做的 Vibemeter 正好长在这条线上：成本落到单项目/单会话、缓存命中率当一等指标、每个 session 关联它产出的 commit、数据全程不出本机。本来是给我自己解决「下个任务能不能在限额重置前跑完」，但顺着成本审视这三问回头看，发现底子是对的——审视成本的第一步永远是先把账算清楚到能落地的颗粒度，而不是盯着一个组织级总数干瞪眼。

它离「组织级成本看板」还差多用户聚合、预测、导出。但方向被这波外部趋势验证了。

给三类人的不同动作

如果你是一线工程师： 趁还没被问到，先把自己的账算明白——你的缓存命中率多少？重做率多高？哪个项目最烧？这些数字早晚有人来问，早一个月知道答案，比临时被问住从容得多。

如果你是 manager： 别等财务来问你才开始找数据。现在就建立「按项目/按人」的 token 可见性，哪怕粗糙。你要的不是省那几千块，是当上面问起时你有答案、有归因、有改进动作——这是你在 AI 时代证明自己「管得清楚」的廉价机会。

如果你在做工具： 这是个真窗口，但别做成又一个上传数据的云面板——企业过不了合规。本地优先 + 落到颗粒度 + 和产出对齐，是这一品类的护城河。

一个反直觉的预测

成本审视这波，最后省下的钱远不如它暴露的东西值钱。

公司翻 token 账，本意是省钱。但真正翻出来的是：哪些人用 AI 用出了 10x 产出、哪些人只是把 token 烧成了好看的活跃度、哪些项目其实根本不该上 AI。

token 账单会变成一面照妖镜——照出谁在创造价值、谁在制造忙碌。省钱是表层，归因才是里子。先把这面镜子擦干净的团队，赢的不是省下的预算，是看清了人和事。