很多团队在看大模型成本时,第一反应是比价格表。但真正上线以后,账单往往不是被最贵的单次请求拉高,而是被整体调用结构拖上去。
如果一个平台只展示 token 消耗,它对业务决策的帮助其实很有限。因为成本的关键不只是消耗了多少,还包括这些消耗是不是有效。很多团队在预算失控后才发现,真正拉高账单的并不是少量高价模型,而是大量“本可以更便宜、更短、更早结束”的请求。
在 Cloubic 内部,我们更愿意把大模型成本治理看成一套运行系统,而不是一张采购表。采购解决的是“买什么”,治理解决的是“什么时候用、给谁用、用到什么程度,以及超预算时系统会做什么反应”。如果后者没有设计好,前者再努力谈价,也只是延缓问题暴露。
指标一:有效成功成本,而不是标价成本
一次调用成功之前,可能经历了重试、回退、超时和多 provider 探测。如果只看最终落到哪个模型上,就会低估真实成本。
我们内部会把以下项合并来看:
- 最终成功请求的总耗时。
- 为了成功发生过多少次重试。
- 回退链路带来的额外 token 与请求数。
- 因失败造成的业务等待损失。
- 因排队和并发占用导致的系统级机会成本。
这套口径能避免一个常见误区:把低单价错当成低成本。一个名义上便宜 20% 的 provider,如果在高峰期把失败率抬高几个点,或者让平均响应时间多出几秒,业务侧付出的代价很可能远高于账单节约。尤其在客服、销售助手、内部 Copilot 这类用户连续交互场景里,时间成本和体验流失同样应该被算进去。
指标二:路由命中率
如果大多数请求都没有落到预期的主路由,说明策略已经偏离了设计目标。
这种偏离通常来自三类原因:
- 上游供应商状态变化。
- 某些业务流量的输入特征发生变化。
- 预算和限速约束已经逼着系统频繁切换。
路由命中率是很好的早期信号,它能提醒你策略该重新校准了。很多团队在月末才发现预算超支,本质上是因为他们没有盯这个指标。主路由命中率持续走低,通常意味着系统已经在用更贵、更慢或者更不稳定的方式“硬撑”服务,只是问题还没在报表里完全体现出来。
指标三:任务分层覆盖率
不是所有请求都值得用最强模型。真正高效的平台,会先按任务价值做分层,再决定模型。
比如:
- 实时对话优先低延迟。
- 复杂分析优先高质量。
- 批量生成优先可预测成本。
- 低价值辅助任务优先使用轻量模型或缩短上下文。
如果任务没有被正确分层,就算路由层再聪明,也只能在错误前提下做优化。很多成本失控案例,本质上不是模型选错了,而是所有请求都被默认送进“最保险”的高配方案。看起来省了策略设计成本,实际上把每一次业务不确定性都转成了模型支出。
指标四:预算回收能力,而不只是预算展示
预算不是只做“限制”,还要能回收到策略层。也就是说,当某类任务接近预算上限时,系统应当能自动调整模型、并发或回退策略。
这类闭环一旦建立起来,成本治理才会从“月末复盘”变成“实时控制”。例如:
- 某部门预算接近上限时,自动把默认模型切到更低成本档位。
- 某工作流预算紧张时,自动缩短上下文窗口,限制多轮重试次数。
- 某批处理任务超预算时,推迟非关键作业,让实时业务优先。
预算只有真正参与运行时决策,才算从财务概念变成平台能力。
成本治理要从入口开始,而不是从账单开始
除了上述四个指标,我们还非常看重两个前置动作:任务入口治理和 Prompt 治理。因为大量浪费其实在请求发出之前就已经注定了。
先说任务入口治理。很多内部平台把所有需求都包装成“调用一个大模型”,结果检索、本地规则判断、模板填充、结构化转换这类原本不需要昂贵推理的任务,也进入了模型链路。最直接的后果就是请求数量和上下文长度双双膨胀。我们后来的做法,是在工作流编排层先问两个问题:这个步骤是否真的需要模型参与?如果需要,是否必须由高质量模型完成?仅仅这一步,就能砍掉不少无效调用。
再说 Prompt 治理。Prompt 写法对成本的影响常常被低估。提示词冗长、上下文重复、历史消息不做裁剪、工具描述一股脑全部塞进去,这些问题单看一次并不显眼,但放大到成千上万次调用时,成本就会迅速累积。平台如果能提供模板管理、上下文裁剪策略、字段级缓存和输出格式复用,就可以在不牺牲质量的前提下,显著减少无效 token。
运行机制上,至少要有三层节奏
真正成熟的成本治理不会只靠月报,而是有明显的多层运行节奏:
- 实时层:监控预算消耗、异常重试、路由偏移和高成本任务峰值。
- 周期层:按业务线复盘任务分层是否合理,是否出现了策略漂移。
- 规划层:重新评估模型组合、供应商谈判空间和未来负载结构。
这三层不能互相替代。只有实时层,没有中长期复盘,系统会一直处于被动救火;只有规划层,没有运行反馈,成本策略很快就会和真实流量脱节。
常见误区:把成本问题都甩给“换便宜模型”
这是最常见也最危险的误区。换便宜模型当然有价值,但它只是治理动作的一种,而且往往应该排在任务分层、Prompt 收缩、缓存复用、回退约束之后。否则你只是把原本就低效的调用结构,迁移到另一组价格表上。
更进一步说,成本治理也不应该和质量对立。一个真正好的系统,应该能让业务方清楚知道:哪些场景值得花钱,哪些场景可以接受降级,以及降级后的影响边界是什么。成本因此变成显式策略,而不是事后争论。
结语
大模型成本治理最怕的是只看静态报表。真正有效的做法,是把成本变成运行时信号,和稳定性、时延一起参与决策。这样一来,平台就不再是在月底回答“为什么花了这么多钱”,而是在请求发生的那一刻,已经开始控制“这笔钱值不值得花”。
当平台具备这种能力后,降本不再靠人工排查,而是变成系统默认行为。对团队来说,这意味着 AI 成本终于可以进入经营模型,而不是永远停留在技术试验阶段。