InkCop 手册

语义搜索

基于向量的智能知识检索

语义搜索是知识库的核心能力。与传统的关键词搜索不同,语义搜索能够理解查询的含义,找到语义相关的内容,即使文档中没有出现完全相同的词汇。

工作原理

  1. 文档分块:文档被切分为有意义的文本段落(chunks)
  2. 向量化:每个段落通过 Embedding 模型转换为高维向量
  3. 索引构建:向量存入 HNSW 索引,支持快速近似最近邻搜索
  4. 查询匹配:用户查询同样被向量化,在索引中搜索最相似的段落

使用方式

通过 AI 对话搜索

最自然的方式是直接在 AI 对话中提问:

"根据知识库,XX 方法的主要优势是什么?"

AI 助手会自动调用知识库搜索工具,检索相关内容并综合回答。

按标题搜索

如果你知道文档的大致名称:

"在知识库中搜索标题包含'深度学习'的文档"

搜索质量优化

Embedding 模型选择

搜索质量很大程度上取决于 Embedding 模型:

模型维度特点
text-embedding-v4(百炼)1024/2048中文优秀
text-embedding-3-large(OpenAI)3072英文最佳
nomic-embed-text(Ollama)768本地可用

多模态向量化

InkCop 支持多模态 Embedding(如 qwen3-vl-embedding),可以将文档中的图片也纳入向量搜索范围。

跨知识库搜索

AI 助手在检索时可以同时搜索多个知识库,自动合并和排序结果。

场景示例

场景:你在写论文的讨论章节,需要找到知识库中与你研究结果相似的文献观点。

  1. 在 AI 对话中输入:"搜索知识库中关于 '卷积神经网络在小样本学习中的泛化能力' 的相关论述"
  2. AI 将你的查询向量化
  3. 在知识库中搜索语义最相似的段落
  4. 返回相关段落及其来源文档
  5. 你可以直接引用这些内容到论文中

本页目录