主题
搭建知识库
不管你选哪个平台,核心就三步:上传文档、配置切片、测试效果。
方案一:用阿里百炼(5 分钟)
最快的方式,适合快速验证。
第一步:创建知识库
- 打开 阿里百炼,注册/登录
- 进入"知识库" → 新建
- 选择"非结构化"(PDF、Word 等文档)或"结构化"(表格数据)
第二步:上传文档
支持的格式:PDF、Word、Excel、TXT、Markdown、HTML
上传后,百炼提供 5 种切片模式:
| 模式 | 说明 | 适合 |
|---|---|---|
| 智能切片 | AI 自动判断最佳切分方式 | 大多数场景(推荐) |
| 按段落 | 按自然段落切分 | 结构清晰的文档 |
| 按标题 | 按 H1/H2/H3 标题切分 | 有明确章节结构的手册 |
| 按长度 | 每 N 个字切一段 | 没有结构的纯文本 |
| 自定义 | 指定分隔符 | 特殊格式文档 |
第三步:绑定到应用
- 创建一个"智能体应用"
- 在设置中绑定刚建好的知识库
- 写系统提示词:
你是 XX 品牌的客服。只基于知识库中的信息回答。 如果知识库中没有相关信息,说"这个问题我需要帮您转接人工客服"。 - 在预览窗口测试
总耗时:5-10 分钟(取决于文档数量)。
方案二:用 Dify(半天,数据自主可控)
适合有技术团队、需要数据留在自己服务器的企业。
第一步:部署 Dify
bash
git clone https://github.com/langgenius/dify.git
cd dify/docker
cp .env.example .env
docker compose up -d访问 http://localhost/install 完成初始化。
不想自部署?
也可以用 Dify 云服务:cloud.dify.ai
第二步:创建知识库
- 左侧导航 → "知识库" → "创建知识库"
- 上传文档(支持批量上传)
- 配置分段设置:
| 设置项 | 推荐值 | 说明 |
|---|---|---|
| 分段长度 | 500 字 | 太长检索不精准,太短丢上下文 |
| 分段重叠 | 50 字 | 相邻段落有重叠,避免信息断裂 |
| 检索模式 | 混合检索 | 向量检索 + 关键词检索,效果最好 |
| Embedding 模型 | text-embedding-v3 | 阿里/OpenAI 的均可 |
第三步:创建 RAG 应用
- "工作室" → "创建应用" → 选择"聊天助手"
- 在"上下文"区域绑定知识库
- 配置检索参数:
Top K: 3(每次检索返回 3 段最相关内容)
Score 阈值: 0.5(低于这个相关度的不返回)- 写系统提示词,引用检索结果:
你是 XX 品牌的客服助手。
请基于以下检索到的信息回答用户问题:
{{context}}
规则:
1. 只基于上面的信息回答
2. 如果信息不足以回答,说"这个问题我需要确认后回复您"
3. 不要编造任何信息第四步:测试和发布
- Dify 内置"调试与预览"面板
- 每条回答都会显示"引用来源"——哪段知识库内容被用到了
- 发布为网页聊天窗口或 API 接口
方案三:用 RAGFlow(文档复杂时首选)
RAGFlow 的核心优势:深度文档理解。表格、图片、扫描件都能处理。
部署
bash
git clone https://github.com/infiniflow/ragflow.git
cd ragflow/docker
docker compose up -d访问 http://localhost 完成初始化。
为什么选 RAGFlow
| 场景 | Dify | RAGFlow |
|---|---|---|
| 简单文本文档 | 够用 | 够用 |
| 含表格的 PDF | 表格可能丢失 | 精确识别表格结构 |
| 扫描件/图片 | 需要额外 OCR | 内置 OCR |
| 多级标题结构 | 基本支持 | 智能识别文档结构 |
RAGFlow 的"深度文档解析"会把 PDF 中的表格、图表、页眉页脚都正确识别和处理,而不是把它们当成普通文字。
使用流程
- 创建知识库 → 上传文档
- 选择解析方式:
- 通用:普通文档
- 论文:学术论文格式
- 手册:产品手册/说明书
- 表格:Excel/CSV
- 法律:合同、协议
- 等待解析完成(会显示解析进度)
- 创建聊天助手 → 绑定知识库 → 测试
文档准备最佳实践
不管用哪个平台,文档质量决定了 RAG 效果的 80%。
文档格式建议
| 格式 | 推荐度 | 说明 |
|---|---|---|
| Markdown | 最佳 | 结构清晰,切片效果最好 |
| Word | 推荐 | 格式完整,大多数平台支持好 |
| PDF(文字版) | 推荐 | 注意不要用扫描版 |
| PDF(扫描版) | 一般 | 需要 OCR,准确率受扫描质量影响 |
| Excel | 一般 | 结构化数据建议用 API 而不是 RAG |
| 网页 | 一般 | 需要清理 HTML 标签 |
FAQ 格式(效果最好)
如果你有客服问答数据,整理成 Q&A 格式效果最好:
markdown
## 退货政策
Q: 买了不满意可以退吗?
A: 支持 7 天无理由退货。签收后 7 天内,商品未使用、包装完好即可申请退货。
Q: 退货运费谁出?
A: 7 天无理由退货运费由买家承担。质量问题退货运费由我们承担。
Q: 退款多久到账?
A: 我们收到退货后 1-3 个工作日内退款到原支付方式。文档质量检查清单
- [ ] 信息是最新的(旧的政策、下架的产品要删掉)
- [ ] 没有矛盾信息(A 文档说 7 天退货,B 文档说 15 天)
- [ ] 专业术语有解释(客户可能用口语问)
- [ ] 关键信息完整(价格、时间、条件都写清楚)
搭完之后:必做的 3 个测试
1. 基础准确性
问 10 个知识库里有答案的问题,看回答是否正确。
2. 边界测试
问知识库里没有的问题,看 AI 是否诚实说"不知道",而不是编造答案。
3. 引用验证
检查 AI 的回答是否真的来自知识库,而不是用自己的"知识"回答。
大多数 RAG 平台都支持显示"引用来源",这个功能一定要开。
一句话总结
阿里百炼 5 分钟上线,Dify 半天自部署,RAGFlow 处理复杂文档。先把 Top 20 FAQ 传上去,效果不好再优化——别在切片策略上纠结三天。
下一篇:优化和排错 — 回答不准怎么办?成本怎么控制?