第 53 篇 · 检索与知识增强

知识库:AI的"参考书"

AI回答得好不好,全看知识库质量高不高

上一篇我们讲了RAG——让AI先"查资料"再回答。但"资料"从哪来?

答案是知识库。知识库就是一堆文档,AI需要时从里面检索相关信息。

但知识库不是简单地把文档扔进去就行。文档怎么收集?怎么清洗?怎么分块?怎么向量化?这些都会直接影响AI的回答质量。

让我给你讲讲如何构建一个高质量的知识库。

知识库是什么?

1
从文档到知识

知识库本质上就是结构化的文档集合。它不是简单的文件存储,而是经过处理、索引、可检索的知识体系。

知识库的层次

📄 原始数据层

PDF、Word、网页、数据库、API、邮件……

↓ 数据处理

🔧 处理层

清洗、分块、去重、格式化

↓ 向量化

🔢 向量层

Embedding模型、向量数据库

↓ 索引优化

🎯 知识层

可检索、可溯源、高质量的知识库

💡 类比

知识库就像图书馆。原始数据层是各种书(书、杂志、报纸)。处理层是图书管理员(分类、编号)。向量层是索引卡(快速查找)。知识层是整个图书馆系统(有序、可检索)。

知识库数据源

2
知识从哪来?

📄 文档类

  • PDF文档:技术文档、研究报告、政策文件
  • Word/Excel:内部文档、数据表格
  • Markdown:技术文档、知识笔记
  • PPT:培训材料、演示文稿

🌐 网页类

  • 官网内容:产品介绍、帮助文档
  • 博客文章:技术博客、新闻资讯
  • 论坛帖子:用户讨论、问答
  • 百科词条:Wikipedia等

🗄️ 数据库

  • 关系数据库:MySQL、PostgreSQL
  • NoSQL数据库:MongoDB、Redis
  • API接口:第三方数据源
  • 日志数据:系统日志、用户行为

💬 对话类

  • 客服记录:历史问答、解决方案
  • 邮件:工作邮件、客户沟通
  • 聊天记录:团队协作、知识分享
  • 会议纪要:决策记录、任务分配
知识库构建流程

3
从数据到知识库

知识库构建的六个步骤
Step 1数据收集

从各种数据源收集数据。可以用爬虫、API、文件上传等方式。

工具

Scrapy、BeautifulSoup、API接口、文件系统

Step 2数据清洗

去除噪声、格式化文本、处理特殊字符。

要做的

• 去除HTML标签

• 统一编码格式

• 处理换行、空格

要去除的

• 广告、导航栏

• 重复内容

• 无意义的标记

Step 3文档分块

把长文档切成小块,便于检索和喂给LLM。

分块策略

• 按段落分块(每块300-500字)

• 按章节分块(保留结构)

• 重叠分块(保留上下文)

• 语义分块(按主题切分)

Step 4向量化

用Embedding模型把文档块变成向量。

常用模型

• OpenAI text-embedding-3-small

• BGE(中文效果好)

• Cohere Embed

Step 5存储索引

把向量和原文存入向量数据库,构建索引。

Step 6质量检查

测试检索效果,调整参数。

检查指标

• 召回率

• 检索延迟

• 答案准确率

调整参数

• 分块大小

• Top-K值

• 索引类型

知识库质量保证

4
如何保证知识库质量?

✅ 数据质量

  • 准确性:数据来源可靠、内容正确
  • 完整性:覆盖所有需要的知识点
  • 时效性:及时更新过时的内容
  • 一致性:格式统一、术语一致

✅ 分块策略

  • 大小合适:300-500字(太小丢失上下文,太大噪声多)
  • 边界合理:在段落、句子边界切分
  • 保留结构:标题、章节等结构信息
  • 重叠分块:相邻块有重叠,保留上下文

✅ 元数据

  • 来源:文档来源、URL、作者
  • 时间:创建时间、更新时间
  • 类别:文档类型、主题标签
  • 质量:可信度评分、重要性

✅ 持续维护

  • 定期更新:新增内容、删除过时内容
  • 去重:去除重复、相似内容
  • 反馈优化:根据用户反馈调整
  • 版本管理:记录知识库变更历史
知识库常见问题

5
这些坑要避开

❌ 问题1:知识太少

知识库内容太少,检索不到相关信息,AI无法回答。

✓ 解决:收集更多相关文档、扩大知识覆盖面

❌ 问题2:知识质量差

文档质量低、内容错误、格式混乱,导致AI回答质量差。

✓ 解决:严格数据清洗、只收录高质量文档

❌ 问题3:知识过时

知识库很久没更新,AI给出过时的答案。

✓ 解决:建立更新机制、定期检查知识时效性

❌ 问题4:知识冲突

不同文档内容矛盾,AI不知道该信哪个。

✓ 解决:标注数据来源和可信度、优先使用权威来源

总结

核心总结

🎓 一句话总结

  • 定义:知识库是结构化的文档集合,AI检索和回答的基础
  • 数据源:文档、网页、数据库、对话记录——知识库的原料
  • 流程:收集 → 清洗 → 分块 → 向量化 → 存储 → 质量检查
  • 质量:数据质量、分块策略、元数据、持续维护——决定AI回答质量

下一篇预告

有了知识库,怎么搜索才聪明?

传统搜索是关键词匹配——你搜"苹果",只能找到包含"苹果"的文档。但有时候你想要的是"iPhone"相关内容,虽然文档里没有"苹果"这个词。

这就需要语义搜索——理解你的意思,不只是匹配关键词。下一篇我们就讲讲这个。

✏️ 手绘图解 · AI Catch 出品

第 53 篇 / 共 84 篇 · 第六阶段:检索与知识增强