语义搜索
基于向量的智能知识检索
语义搜索是知识库的核心能力。与传统的关键词搜索不同,语义搜索能够理解查询的含义,找到语义相关的内容,即使文档中没有出现完全相同的词汇。
工作原理
- 文档分块:文档被切分为有意义的文本段落(chunks)
- 向量化:每个段落通过 Embedding 模型转换为高维向量
- 索引构建:向量存入 HNSW 索引,支持快速近似最近邻搜索
- 查询匹配:用户查询同样被向量化,在索引中搜索最相似的段落
使用方式
通过 AI 对话搜索
最自然的方式是直接在 AI 对话中提问:
"根据知识库,XX 方法的主要优势是什么?"
AI 助手会自动调用知识库搜索工具,检索相关内容并综合回答。
按标题搜索
如果你知道文档的大致名称:
"在知识库中搜索标题包含'深度学习'的文档"
搜索质量优化
Embedding 模型选择
搜索质量很大程度上取决于 Embedding 模型:
| 模型 | 维度 | 特点 |
|---|---|---|
| text-embedding-v4(百炼) | 1024/2048 | 中文优秀 |
| text-embedding-3-large(OpenAI) | 3072 | 英文最佳 |
| nomic-embed-text(Ollama) | 768 | 本地可用 |
多模态向量化
InkCop 支持多模态 Embedding(如 qwen3-vl-embedding),可以将文档中的图片也纳入向量搜索范围。
跨知识库搜索
AI 助手在检索时可以同时搜索多个知识库,自动合并和排序结果。
场景示例
场景:你在写论文的讨论章节,需要找到知识库中与你研究结果相似的文献观点。
- 在 AI 对话中输入:"搜索知识库中关于 '卷积神经网络在小样本学习中的泛化能力' 的相关论述"
- AI 将你的查询向量化
- 在知识库中搜索语义最相似的段落
- 返回相关段落及其来源文档
- 你可以直接引用这些内容到论文中