大模型成本治理的四个指标

很多团队在看大模型成本时，第一反应是比价格表。但真正上线以后，账单往往不是被最贵的单次请求拉高，而是被整体调用结构拖上去。

如果一个平台只展示 token 消耗，它对业务决策的帮助其实很有限。因为成本的关键不只是消耗了多少，还包括这些消耗是不是有效。很多团队在预算失控后才发现，真正拉高账单的并不是少量高价模型，而是大量“本可以更便宜、更短、更早结束”的请求。

在 Cloubic 内部，我们更愿意把大模型成本治理看成一套运行系统，而不是一张采购表。采购解决的是“买什么”，治理解决的是“什么时候用、给谁用、用到什么程度，以及超预算时系统会做什么反应”。如果后者没有设计好，前者再努力谈价，也只是延缓问题暴露。

指标一：有效成功成本，而不是标价成本

一次调用成功之前，可能经历了重试、回退、超时和多 provider 探测。如果只看最终落到哪个模型上，就会低估真实成本。

我们内部会把以下项合并来看：

最终成功请求的总耗时。
为了成功发生过多少次重试。
回退链路带来的额外 token 与请求数。
因失败造成的业务等待损失。
因排队和并发占用导致的系统级机会成本。

这套口径能避免一个常见误区：把低单价错当成低成本。一个名义上便宜 20% 的 provider，如果在高峰期把失败率抬高几个点，或者让平均响应时间多出几秒，业务侧付出的代价很可能远高于账单节约。尤其在客服、销售助手、内部 Copilot 这类用户连续交互场景里，时间成本和体验流失同样应该被算进去。

指标二：路由命中率

如果大多数请求都没有落到预期的主路由，说明策略已经偏离了设计目标。

这种偏离通常来自三类原因：

上游供应商状态变化。
某些业务流量的输入特征发生变化。
预算和限速约束已经逼着系统频繁切换。

路由命中率是很好的早期信号，它能提醒你策略该重新校准了。很多团队在月末才发现预算超支，本质上是因为他们没有盯这个指标。主路由命中率持续走低，通常意味着系统已经在用更贵、更慢或者更不稳定的方式“硬撑”服务，只是问题还没在报表里完全体现出来。

指标三：任务分层覆盖率

不是所有请求都值得用最强模型。真正高效的平台，会先按任务价值做分层，再决定模型。

比如：

实时对话优先低延迟。
复杂分析优先高质量。
批量生成优先可预测成本。
低价值辅助任务优先使用轻量模型或缩短上下文。

如果任务没有被正确分层，就算路由层再聪明，也只能在错误前提下做优化。很多成本失控案例，本质上不是模型选错了，而是所有请求都被默认送进“最保险”的高配方案。看起来省了策略设计成本，实际上把每一次业务不确定性都转成了模型支出。

指标四：预算回收能力，而不只是预算展示

预算不是只做“限制”，还要能回收到策略层。也就是说，当某类任务接近预算上限时，系统应当能自动调整模型、并发或回退策略。

这类闭环一旦建立起来，成本治理才会从“月末复盘”变成“实时控制”。例如：

某部门预算接近上限时，自动把默认模型切到更低成本档位。
某工作流预算紧张时，自动缩短上下文窗口，限制多轮重试次数。
某批处理任务超预算时，推迟非关键作业，让实时业务优先。

预算只有真正参与运行时决策，才算从财务概念变成平台能力。

成本治理要从入口开始，而不是从账单开始

除了上述四个指标，我们还非常看重两个前置动作：任务入口治理和 Prompt 治理。因为大量浪费其实在请求发出之前就已经注定了。

先说任务入口治理。很多内部平台把所有需求都包装成“调用一个大模型”，结果检索、本地规则判断、模板填充、结构化转换这类原本不需要昂贵推理的任务，也进入了模型链路。最直接的后果就是请求数量和上下文长度双双膨胀。我们后来的做法，是在工作流编排层先问两个问题：这个步骤是否真的需要模型参与？如果需要，是否必须由高质量模型完成？仅仅这一步，就能砍掉不少无效调用。

再说 Prompt 治理。Prompt 写法对成本的影响常常被低估。提示词冗长、上下文重复、历史消息不做裁剪、工具描述一股脑全部塞进去，这些问题单看一次并不显眼，但放大到成千上万次调用时，成本就会迅速累积。平台如果能提供模板管理、上下文裁剪策略、字段级缓存和输出格式复用，就可以在不牺牲质量的前提下，显著减少无效 token。

运行机制上，至少要有三层节奏

真正成熟的成本治理不会只靠月报，而是有明显的多层运行节奏：

实时层：监控预算消耗、异常重试、路由偏移和高成本任务峰值。
周期层：按业务线复盘任务分层是否合理，是否出现了策略漂移。
规划层：重新评估模型组合、供应商谈判空间和未来负载结构。

这三层不能互相替代。只有实时层，没有中长期复盘，系统会一直处于被动救火；只有规划层，没有运行反馈，成本策略很快就会和真实流量脱节。

常见误区：把成本问题都甩给“换便宜模型”

这是最常见也最危险的误区。换便宜模型当然有价值，但它只是治理动作的一种，而且往往应该排在任务分层、Prompt 收缩、缓存复用、回退约束之后。否则你只是把原本就低效的调用结构，迁移到另一组价格表上。

更进一步说，成本治理也不应该和质量对立。一个真正好的系统，应该能让业务方清楚知道：哪些场景值得花钱，哪些场景可以接受降级，以及降级后的影响边界是什么。成本因此变成显式策略，而不是事后争论。

结语

大模型成本治理最怕的是只看静态报表。真正有效的做法，是把成本变成运行时信号，和稳定性、时延一起参与决策。这样一来，平台就不再是在月底回答“为什么花了这么多钱”，而是在请求发生的那一刻，已经开始控制“这笔钱值不值得花”。

当平台具备这种能力后，降本不再靠人工排查，而是变成系统默认行为。对团队来说，这意味着 AI 成本终于可以进入经营模型，而不是永远停留在技术试验阶段。