主题
Agent 上生产
测试过了只是开始。生产环境的挑战是:Agent 要在你不看着的时候也能稳定运行。
从 Demo 到生产的差距
| Demo | 生产 | |
|---|---|---|
| 用户量 | 你自己测 | 每天几百到几万人 |
| 运行时间 | 测几分钟 | 7×24 不间断 |
| 出错后果 | 重试就行 | 客户投诉、资金损失 |
| 成本 | 忽略不计 | 每月几百到几万元 |
行业数据:
世界顶尖团队也需要 6-12 个月 才能把 Agent 从 Demo 做到生产级。不要期望两周上线。
生产环境三件事:监控、成本、扩展
一、监控:知道 Agent 在干什么
必须监控的 5 个指标
| 指标 | 怎么算 | 告警阈值 |
|---|---|---|
| 任务完成率 | 成功完成的对话 / 总对话 | <85% 告警 |
| 平均响应时间 | 从收到问题到回复的时间 | >5 秒告警 |
| 转人工率 | 转人工的对话 / 总对话 | >30% 告警 |
| 日 API 成本 | 当日累计 API 调用费用 | 超预算 80% 告警 |
| 用户满意度 | 好评数 / 总评价数 | <4 分(5分制)告警 |
怎么收集
| 平台 | 内置监控 | 说明 |
|---|---|---|
| 扣子 (Coze) | 有 | 后台看对话量、用户反馈 |
| Dify | 有 | 内置日志和分析面板 |
| LangSmith | 专业级 | LangChain 出品,Agent 全链路追踪 |
| 自建 | 需开发 | 记录每次 API 调用的输入/输出/耗时/成本 |
每日巡检(5 分钟)
每天早上花 5 分钟看这些:
1. 昨天的对话量和完成率 → 有没有异常波动?
2. 转人工的对话 → 抽看 3 条,Agent 为什么转的?是真的答不了还是提示词有漏洞?
3. 用户差评 → 逐条看,找出 Agent 的弱点
4. API 成本 → 有没有突然飙升?二、成本控制:别让 API 费用吃掉利润
成本失控的 3 个常见原因
| 原因 | 表现 | 解决 |
|---|---|---|
| Agent 死循环 | 反复调用同一个工具不停 | 设最大调用次数(如 10 次) |
| 上下文爆炸 | 每轮对话把全部历史都发 | 定期压缩对话历史 |
| 模型选贵了 | 简单问题也用最贵的模型 | 模型路由(分流到便宜模型) |
模型路由实战
这是性价比最高的优化手段,能省 40-60%:
用户问题进来
↓
分类模型(最便宜的)判断复杂度
├── 简单(FAQ、查询)→ 便宜模型回答
├── 中等(分析、推荐)→ 中等模型回答
└── 复杂(投诉、多步骤)→ 最强模型回答| 复杂度 | 推荐模型 | 成本参考 |
|---|---|---|
| 简单 | 通义千问(免费)/ Haiku / GPT-4o-mini | ¥0-0.01/次 |
| 中等 | Sonnet / GPT-4o | ¥0.05-0.1/次 |
| 复杂 | Opus / GPT-4 / o3 | ¥0.5-2/次 |
关键:分类本身用最便宜的模型就够,因为判断"这个问题简单还是复杂"比回答问题容易得多。
预算保护
必须设置硬性上限,防止成本失控:
| 保护措施 | 设置 |
|---|---|
| 单次对话最大轮次 | 20 轮 |
| 单次对话最大 Token | 10,000 |
| 每日 API 预算上限 | 根据预算设定 |
| 每分钟最大请求数 | 根据模型限制设定 |
| 超限处理 | 切换到更便宜的模型 / 转人工 |
三、扩展:从 1 个 Agent 到多个
扩展路径
第 1 个月:1 个 Agent 处理 1 个场景
→ 验证效果、收集数据、优化提示词
第 2-3 个月:同一个 Agent 加能力
→ 增加 Skills、接入更多数据源
第 4-6 个月:多个 Agent 各管一摊
→ 客服 Agent + 运营 Agent + 数据 Agent
第 6 个月+:Agent 之间协作
→ 客服 Agent 发现异常 → 通知运营 Agent多 Agent 管理原则
| 原则 | 说明 |
|---|---|
| 各管各的 | 每个 Agent 有明确的职责边界,不要一个 Agent 干所有事 |
| 共享知识库 | 产品信息、公司政策等通用知识,所有 Agent 共享 |
| 统一监控 | 所有 Agent 的指标汇总到一个面板 |
| 统一安全策略 | 权限管理、敏感操作审批等规则全局统一 |
持续优化循环
Agent 上线不是终点,是起点。
上线运行
↓
收集数据(对话日志、用户反馈、成本数据)
↓
分析问题(哪些问题答不好?成本在哪高?)
↓
优化(补知识库、改提示词、调路由策略)
↓
测试(回归测试确保没破坏原有功能)
↓
更新上线
↓
继续收集数据...建议频率:
- 第一个月:每天看数据,每周优化一次
- 第二个月起:每周看数据,每两周优化一次
- 稳定后:每月看数据,按需优化
故障应对预案
提前准备好这些:
| 故障 | 症状 | 应对 |
|---|---|---|
| API 挂了 | Agent 不回复 | 自动切换到备用模型 / 显示"系统维护中" |
| 回答质量暴跌 | 用户差评激增 | 暂停 Agent,全部转人工 |
| 成本飙升 | 日费用远超预算 | 自动降级到便宜模型 / 限流 |
| 安全事件 | Agent 泄露了不该说的 | 立即下线,排查原因 |
每种故障都要有:
- 自动检测机制(告警)
- 自动应对措施(降级/切换)
- 人工通知渠道(谁负责处理)
- 事后复盘流程(怎么防止再发生)
Anthropic 的提醒
"Harness 的每个组件都编码了对模型局限性的假设。随着模型变强,要定期测试哪些组件还有必要存在。"
翻译成大白话:今天你搭的这些监控、路由、降级机制,过半年可能有些不需要了(因为模型变强了)。定期检查,该精简就精简,不要让系统越来越臃肿。
系列总结
| 篇目 | 核心要点 |
|---|---|
| 搭建第一个 Agent | 扣子 1 小时、Dify 半天、n8n 做自动化。先做出来 |
| 测试和评估 | 50 个测试案例、安全率 100%、成本算清楚 |
| 上生产(本篇) | 5 个监控指标、模型路由省 40-60%、故障预案 |
全部来源
完整学习路径回顾
学会对话 → 上手工具 → 写 Skill → 接 MCP → 搭建 Agent → 测试 → 上生产
↑ 你在这里
恭喜,你已经走完了从"AI 小白"到"Agent 落地"的完整路径。接下来可以深入看:
- Agent Harness — 让 Agent 长期稳定运行的架构
- 企业落地AI — 更多企业级案例和方法论
- 电商AI实战 — 电商特定的 AI 应用