Agent 上生产

测试过了只是开始。生产环境的挑战是：Agent 要在你不看着的时候也能稳定运行。

从 Demo 到生产的差距

	Demo	生产
用户量	你自己测	每天几百到几万人
运行时间	测几分钟	7×24 不间断
出错后果	重试就行	客户投诉、资金损失
成本	忽略不计	每月几百到几万元

行业数据：

世界顶尖团队也需要 6-12 个月 才能把 Agent 从 Demo 做到生产级。不要期望两周上线。

生产环境三件事：监控、成本、扩展

一、监控：知道 Agent 在干什么

必须监控的 5 个指标

指标	怎么算	告警阈值
任务完成率	成功完成的对话 / 总对话	<85% 告警
平均响应时间	从收到问题到回复的时间	>5 秒告警
转人工率	转人工的对话 / 总对话	>30% 告警
日 API 成本	当日累计 API 调用费用	超预算 80% 告警
用户满意度	好评数 / 总评价数	<4 分（5分制）告警

怎么收集

平台	内置监控	说明
扣子 (Coze)	有	后台看对话量、用户反馈
Dify	有	内置日志和分析面板
LangSmith	专业级	LangChain 出品，Agent 全链路追踪
自建	需开发	记录每次 API 调用的输入/输出/耗时/成本

每日巡检（5 分钟）

每天早上花 5 分钟看这些：

1. 昨天的对话量和完成率 → 有没有异常波动？
2. 转人工的对话 → 抽看 3 条，Agent 为什么转的？是真的答不了还是提示词有漏洞？
3. 用户差评 → 逐条看，找出 Agent 的弱点
4. API 成本 → 有没有突然飙升？

二、成本控制：别让 API 费用吃掉利润

成本失控的 3 个常见原因

原因	表现	解决
Agent 死循环	反复调用同一个工具不停	设最大调用次数（如 10 次）
上下文爆炸	每轮对话把全部历史都发	定期压缩对话历史
模型选贵了	简单问题也用最贵的模型	模型路由（分流到便宜模型）

模型路由实战

这是性价比最高的优化手段，能省 40-60%：

用户问题进来
  ↓
分类模型（最便宜的）判断复杂度
  ├── 简单（FAQ、查询）→ 便宜模型回答
  ├── 中等（分析、推荐）→ 中等模型回答
  └── 复杂（投诉、多步骤）→ 最强模型回答

复杂度	推荐模型	成本参考
简单	通义千问（免费）/ Haiku / GPT-4o-mini	¥0-0.01/次
中等	Sonnet / GPT-4o	¥0.05-0.1/次
复杂	Opus / GPT-4 / o3	¥0.5-2/次

关键：分类本身用最便宜的模型就够，因为判断"这个问题简单还是复杂"比回答问题容易得多。

预算保护

必须设置硬性上限，防止成本失控：

保护措施	设置
单次对话最大轮次	20 轮
单次对话最大 Token	10,000
每日 API 预算上限	根据预算设定
每分钟最大请求数	根据模型限制设定
超限处理	切换到更便宜的模型 / 转人工

三、扩展：从 1 个 Agent 到多个

扩展路径

第 1 个月：1 个 Agent 处理 1 个场景
  → 验证效果、收集数据、优化提示词

第 2-3 个月：同一个 Agent 加能力
  → 增加 Skills、接入更多数据源

第 4-6 个月：多个 Agent 各管一摊
  → 客服 Agent + 运营 Agent + 数据 Agent

第 6 个月+：Agent 之间协作
  → 客服 Agent 发现异常 → 通知运营 Agent

多 Agent 管理原则

原则	说明
各管各的	每个 Agent 有明确的职责边界，不要一个 Agent 干所有事
共享知识库	产品信息、公司政策等通用知识，所有 Agent 共享
统一监控	所有 Agent 的指标汇总到一个面板
统一安全策略	权限管理、敏感操作审批等规则全局统一

持续优化循环

Agent 上线不是终点，是起点。

上线运行
  ↓
收集数据（对话日志、用户反馈、成本数据）
  ↓
分析问题（哪些问题答不好？成本在哪高？）
  ↓
优化（补知识库、改提示词、调路由策略）
  ↓
测试（回归测试确保没破坏原有功能）
  ↓
更新上线
  ↓
继续收集数据...

建议频率：

第一个月：每天看数据，每周优化一次
第二个月起：每周看数据，每两周优化一次
稳定后：每月看数据，按需优化

故障应对预案

提前准备好这些：

故障	症状	应对
API 挂了	Agent 不回复	自动切换到备用模型 / 显示"系统维护中"
回答质量暴跌	用户差评激增	暂停 Agent，全部转人工
成本飙升	日费用远超预算	自动降级到便宜模型 / 限流
安全事件	Agent 泄露了不该说的	立即下线，排查原因

每种故障都要有：

自动检测机制（告警）
自动应对措施（降级/切换）
人工通知渠道（谁负责处理）
事后复盘流程（怎么防止再发生）

Anthropic 的提醒

"Harness 的每个组件都编码了对模型局限性的假设。随着模型变强，要定期测试哪些组件还有必要存在。"

翻译成大白话：今天你搭的这些监控、路由、降级机制，过半年可能有些不需要了（因为模型变强了）。定期检查，该精简就精简，不要让系统越来越臃肿。

系列总结

篇目	核心要点
搭建第一个 Agent	扣子 1 小时、Dify 半天、n8n 做自动化。先做出来
测试和评估	50 个测试案例、安全率 100%、成本算清楚
上生产（本篇）	5 个监控指标、模型路由省 40-60%、故障预案

全部来源

完整学习路径回顾

学会对话 → 上手工具 → 写 Skill → 接 MCP → 搭建 Agent → 测试 → 上生产
                                                                      ↑ 你在这里

恭喜，你已经走完了从"AI 小白"到"Agent 落地"的完整路径。

接下来可以深入看：

Agent Harness — 让 Agent 长期稳定运行的架构
企业落地AI — 更多企业级案例和方法论
电商AI实战 — 电商特定的 AI 应用

Agent 上生产 ​

从 Demo 到生产的差距 ​

生产环境三件事：监控、成本、扩展 ​

一、监控：知道 Agent 在干什么 ​

必须监控的 5 个指标 ​

怎么收集 ​

每日巡检（5 分钟） ​

二、成本控制：别让 API 费用吃掉利润 ​

成本失控的 3 个常见原因 ​

模型路由实战 ​

预算保护 ​

三、扩展：从 1 个 Agent 到多个 ​

扩展路径 ​

多 Agent 管理原则 ​

持续优化循环 ​

故障应对预案 ​

Anthropic 的提醒 ​

系列总结 ​

完整学习路径回顾 ​