Skip to content

Agent 上生产

测试过了只是开始。生产环境的挑战是:Agent 要在你不看着的时候也能稳定运行。

从 Demo 到生产的差距

Demo生产
用户量你自己测每天几百到几万人
运行时间测几分钟7×24 不间断
出错后果重试就行客户投诉、资金损失
成本忽略不计每月几百到几万元

行业数据

世界顶尖团队也需要 6-12 个月 才能把 Agent 从 Demo 做到生产级。不要期望两周上线。


生产环境三件事:监控、成本、扩展

一、监控:知道 Agent 在干什么

必须监控的 5 个指标

指标怎么算告警阈值
任务完成率成功完成的对话 / 总对话<85% 告警
平均响应时间从收到问题到回复的时间>5 秒告警
转人工率转人工的对话 / 总对话>30% 告警
日 API 成本当日累计 API 调用费用超预算 80% 告警
用户满意度好评数 / 总评价数<4 分(5分制)告警

怎么收集

平台内置监控说明
扣子 (Coze)后台看对话量、用户反馈
Dify内置日志和分析面板
LangSmith专业级LangChain 出品,Agent 全链路追踪
自建需开发记录每次 API 调用的输入/输出/耗时/成本

每日巡检(5 分钟)

每天早上花 5 分钟看这些:

1. 昨天的对话量和完成率 → 有没有异常波动?
2. 转人工的对话 → 抽看 3 条,Agent 为什么转的?是真的答不了还是提示词有漏洞?
3. 用户差评 → 逐条看,找出 Agent 的弱点
4. API 成本 → 有没有突然飙升?

二、成本控制:别让 API 费用吃掉利润

成本失控的 3 个常见原因

原因表现解决
Agent 死循环反复调用同一个工具不停设最大调用次数(如 10 次)
上下文爆炸每轮对话把全部历史都发定期压缩对话历史
模型选贵了简单问题也用最贵的模型模型路由(分流到便宜模型)

模型路由实战

这是性价比最高的优化手段,能省 40-60%:

用户问题进来

分类模型(最便宜的)判断复杂度
  ├── 简单(FAQ、查询)→ 便宜模型回答
  ├── 中等(分析、推荐)→ 中等模型回答
  └── 复杂(投诉、多步骤)→ 最强模型回答
复杂度推荐模型成本参考
简单通义千问(免费)/ Haiku / GPT-4o-mini¥0-0.01/次
中等Sonnet / GPT-4o¥0.05-0.1/次
复杂Opus / GPT-4 / o3¥0.5-2/次

关键:分类本身用最便宜的模型就够,因为判断"这个问题简单还是复杂"比回答问题容易得多。

预算保护

必须设置硬性上限,防止成本失控:

保护措施设置
单次对话最大轮次20 轮
单次对话最大 Token10,000
每日 API 预算上限根据预算设定
每分钟最大请求数根据模型限制设定
超限处理切换到更便宜的模型 / 转人工

三、扩展:从 1 个 Agent 到多个

扩展路径

第 1 个月:1 个 Agent 处理 1 个场景
  → 验证效果、收集数据、优化提示词

第 2-3 个月:同一个 Agent 加能力
  → 增加 Skills、接入更多数据源

第 4-6 个月:多个 Agent 各管一摊
  → 客服 Agent + 运营 Agent + 数据 Agent

第 6 个月+:Agent 之间协作
  → 客服 Agent 发现异常 → 通知运营 Agent

多 Agent 管理原则

原则说明
各管各的每个 Agent 有明确的职责边界,不要一个 Agent 干所有事
共享知识库产品信息、公司政策等通用知识,所有 Agent 共享
统一监控所有 Agent 的指标汇总到一个面板
统一安全策略权限管理、敏感操作审批等规则全局统一

持续优化循环

Agent 上线不是终点,是起点。

上线运行

收集数据(对话日志、用户反馈、成本数据)

分析问题(哪些问题答不好?成本在哪高?)

优化(补知识库、改提示词、调路由策略)

测试(回归测试确保没破坏原有功能)

更新上线

继续收集数据...

建议频率

  • 第一个月:每天看数据,每周优化一次
  • 第二个月起:每周看数据,每两周优化一次
  • 稳定后:每月看数据,按需优化

故障应对预案

提前准备好这些:

故障症状应对
API 挂了Agent 不回复自动切换到备用模型 / 显示"系统维护中"
回答质量暴跌用户差评激增暂停 Agent,全部转人工
成本飙升日费用远超预算自动降级到便宜模型 / 限流
安全事件Agent 泄露了不该说的立即下线,排查原因

每种故障都要有

  1. 自动检测机制(告警)
  2. 自动应对措施(降级/切换)
  3. 人工通知渠道(谁负责处理)
  4. 事后复盘流程(怎么防止再发生)

Anthropic 的提醒

"Harness 的每个组件都编码了对模型局限性的假设。随着模型变强,要定期测试哪些组件还有必要存在。"

翻译成大白话:今天你搭的这些监控、路由、降级机制,过半年可能有些不需要了(因为模型变强了)。定期检查,该精简就精简,不要让系统越来越臃肿。


系列总结

篇目核心要点
搭建第一个 Agent扣子 1 小时、Dify 半天、n8n 做自动化。先做出来
测试和评估50 个测试案例、安全率 100%、成本算清楚
上生产(本篇)5 个监控指标、模型路由省 40-60%、故障预案

完整学习路径回顾

学会对话 → 上手工具 → 写 Skill → 接 MCP → 搭建 Agent → 测试 → 上生产
                                                                      ↑ 你在这里

恭喜,你已经走完了从"AI 小白"到"Agent 落地"的完整路径。

接下来可以深入看:

微信交流:592146145