Skip to content

搭建知识库

不管你选哪个平台,核心就三步:上传文档、配置切片、测试效果。

方案一:用阿里百炼(5 分钟)

最快的方式,适合快速验证。

第一步:创建知识库

  1. 打开 阿里百炼,注册/登录
  2. 进入"知识库" → 新建
  3. 选择"非结构化"(PDF、Word 等文档)或"结构化"(表格数据)

第二步:上传文档

支持的格式:PDF、Word、Excel、TXT、Markdown、HTML

上传后,百炼提供 5 种切片模式

模式说明适合
智能切片AI 自动判断最佳切分方式大多数场景(推荐)
按段落按自然段落切分结构清晰的文档
按标题按 H1/H2/H3 标题切分有明确章节结构的手册
按长度每 N 个字切一段没有结构的纯文本
自定义指定分隔符特殊格式文档

第三步:绑定到应用

  1. 创建一个"智能体应用"
  2. 在设置中绑定刚建好的知识库
  3. 写系统提示词:
    你是 XX 品牌的客服。只基于知识库中的信息回答。
    如果知识库中没有相关信息,说"这个问题我需要帮您转接人工客服"。
  4. 在预览窗口测试

总耗时:5-10 分钟(取决于文档数量)。


方案二:用 Dify(半天,数据自主可控)

适合有技术团队、需要数据留在自己服务器的企业。

第一步:部署 Dify

bash
git clone https://github.com/langgenius/dify.git
cd dify/docker
cp .env.example .env
docker compose up -d

访问 http://localhost/install 完成初始化。

不想自部署?

也可以用 Dify 云服务:cloud.dify.ai

第二步:创建知识库

  1. 左侧导航 → "知识库" → "创建知识库"
  2. 上传文档(支持批量上传)
  3. 配置分段设置:
设置项推荐值说明
分段长度500 字太长检索不精准,太短丢上下文
分段重叠50 字相邻段落有重叠,避免信息断裂
检索模式混合检索向量检索 + 关键词检索,效果最好
Embedding 模型text-embedding-v3阿里/OpenAI 的均可

第三步:创建 RAG 应用

  1. "工作室" → "创建应用" → 选择"聊天助手"
  2. 在"上下文"区域绑定知识库
  3. 配置检索参数:
Top K: 3(每次检索返回 3 段最相关内容)
Score 阈值: 0.5(低于这个相关度的不返回)
  1. 写系统提示词,引用检索结果:
你是 XX 品牌的客服助手。
请基于以下检索到的信息回答用户问题:
{{context}}

规则:
1. 只基于上面的信息回答
2. 如果信息不足以回答,说"这个问题我需要确认后回复您"
3. 不要编造任何信息

第四步:测试和发布

  • Dify 内置"调试与预览"面板
  • 每条回答都会显示"引用来源"——哪段知识库内容被用到了
  • 发布为网页聊天窗口或 API 接口

方案三:用 RAGFlow(文档复杂时首选)

RAGFlow 的核心优势:深度文档理解。表格、图片、扫描件都能处理。

部署

bash
git clone https://github.com/infiniflow/ragflow.git
cd ragflow/docker
docker compose up -d

访问 http://localhost 完成初始化。

为什么选 RAGFlow

场景DifyRAGFlow
简单文本文档够用够用
含表格的 PDF表格可能丢失精确识别表格结构
扫描件/图片需要额外 OCR内置 OCR
多级标题结构基本支持智能识别文档结构

RAGFlow 的"深度文档解析"会把 PDF 中的表格、图表、页眉页脚都正确识别和处理,而不是把它们当成普通文字。

使用流程

  1. 创建知识库 → 上传文档
  2. 选择解析方式:
    • 通用:普通文档
    • 论文:学术论文格式
    • 手册:产品手册/说明书
    • 表格:Excel/CSV
    • 法律:合同、协议
  3. 等待解析完成(会显示解析进度)
  4. 创建聊天助手 → 绑定知识库 → 测试

文档准备最佳实践

不管用哪个平台,文档质量决定了 RAG 效果的 80%。

文档格式建议

格式推荐度说明
Markdown最佳结构清晰,切片效果最好
Word推荐格式完整,大多数平台支持好
PDF(文字版)推荐注意不要用扫描版
PDF(扫描版)一般需要 OCR,准确率受扫描质量影响
Excel一般结构化数据建议用 API 而不是 RAG
网页一般需要清理 HTML 标签

FAQ 格式(效果最好)

如果你有客服问答数据,整理成 Q&A 格式效果最好:

markdown
## 退货政策

Q: 买了不满意可以退吗?
A: 支持 7 天无理由退货。签收后 7 天内,商品未使用、包装完好即可申请退货。

Q: 退货运费谁出?
A: 7 天无理由退货运费由买家承担。质量问题退货运费由我们承担。

Q: 退款多久到账?
A: 我们收到退货后 1-3 个工作日内退款到原支付方式。

文档质量检查清单

  • [ ] 信息是最新的(旧的政策、下架的产品要删掉)
  • [ ] 没有矛盾信息(A 文档说 7 天退货,B 文档说 15 天)
  • [ ] 专业术语有解释(客户可能用口语问)
  • [ ] 关键信息完整(价格、时间、条件都写清楚)

搭完之后:必做的 3 个测试

1. 基础准确性

问 10 个知识库里有答案的问题,看回答是否正确。

2. 边界测试

问知识库里没有的问题,看 AI 是否诚实说"不知道",而不是编造答案。

3. 引用验证

检查 AI 的回答是否真的来自知识库,而不是用自己的"知识"回答。

大多数 RAG 平台都支持显示"引用来源",这个功能一定要开。


一句话总结

阿里百炼 5 分钟上线,Dify 半天自部署,RAGFlow 处理复杂文档。先把 Top 20 FAQ 传上去,效果不好再优化——别在切片策略上纠结三天。

下一篇:优化和排错 — 回答不准怎么办?成本怎么控制?

微信交流:592146145