Blog
分享 AI 网关、模型路由、成本优化和产品实践。
AI 网关也需要错误预算
稳定性不是一句 SLA,而是需要被分配、被追踪、被约束的错误预算。本文讨论 AI 网关为什么应该像基础设施一样管理失败率。
AI 上线前,先把评测做对
评测不是学术附属品,而是 AI 产品真正能不能上线的门槛。本文讲清楚任务集、评分口径、回归机制和发布门槛该怎么搭。
换模型时,怎样不把产品搞坏
模型迁移不是简单改个 ID。本文从兼容性、灰度、评测和回滚四个方面,讨论团队怎样在不伤害线上体验的前提下完成模型切换。
AI 产品的延迟预算怎么定
大模型时代,慢不是单点问题,而是整条链路的预算问题。本文从用户感知、链路拆分、回退边界和工程取舍四个层面讲延迟设计。
有些场景,其实不该上 RAG
检索增强不是 AI 产品的默认答案。本文讨论哪些问题适合 RAG,哪些问题更应该交给规则、工作流或结构化系统处理。
多租户 AI 平台怎么管权限
从 API Key 到组织权限,再到模型可见性和预算边界,多租户平台的治理问题远比“谁能登录”复杂。本文讲权限设计该怎么分层。
不是所有任务都该用最强模型
团队真正需要的不是“永远最强”,而是“在正确任务上用正确模型”。本文从任务分层、质量边界和预算设计三个角度讲模型组合。
Tool Calling 不是多加几个函数
函数调用一旦进入生产环境,重点就不再是“模型会不会调”,而是“调错了怎么办”。本文讨论 Tool Calling 背后的边界、校验和恢复机制。
智能路由,才是统一 API 的下半场
一次请求背后,不只是换一个 provider 那么简单。本文拆开讲讲 Cloubic 在路由、熔断、回退和观测上的核心做法。
Prompt 模板应该被当成资产
Prompt 不该散落在代码、文档和聊天记录里。本文讨论模板管理、版本控制、评审流程和复用机制,解释为什么 Prompt 应该进入资产化管理。
企业客户买 AI,先问的不是模型
真正进入企业采购阶段后,客户更关心稳定性、权限、预算、日志和合规边界。本文讨论企业客户在评估 AI 平台时真正会问什么。
AI Gateway 的缓存,不只是缓存回答
真正有用的 AI 缓存,不只是把整段回答存下来。本文从请求归一化、语义缓存、工具结果缓存和失效策略四个层面,讨论 AI Gateway 里的缓存设计。
结构化输出,为什么总是坏
JSON mode、schema 和函数调用看起来已经足够强,但结构化输出在生产环境里依然经常出问题。本文从失败模式、兼容层、修复策略和发布纪律四个角度讨论它。
客户案例:跨境 SaaS 团队怎样重做 AI 客服
一个跨境 SaaS 团队把 AI 客服从 FAQ 演示工具做成了真正的主链路能力。本文以匿名案例形式拆解他们在知识治理、路由、延迟和人工接管上的关键调整。
客户案例:内容平台怎样把 AI 成本管住
一个内容平台在大规模使用 AI 生成和审核后,先遇到的不是质量问题,而是成本失控。本文以匿名案例形式拆解他们如何重做任务分层、预算和路由策略。
客户案例:企业内助理怎样从试点走向全员
一支企业服务团队在多个部门内推广 AI 助理,真正难的不是把模型接进来,而是把权限、知识边界、发布和审计一起做对。本文以匿名案例形式拆解这条路径。
大模型成本治理的四个指标
调用单价只是表象。想把 AI 成本做进经营模型,至少要把路由命中率、重试成本、任务分层和预算回收看清楚。
模型目录应该帮用户做决策
当模型越来越多,Catalog 的价值不在于堆信息,而在于帮助用户更快做选择。本文介绍 Cloubic 模型目录的设计原则。