
这个n8n工作流构建了另一个创建知识库助手的示例,但展示了如何通过更细致和有针对性的数据摄取方法为您的聊天机器人产生更好的结果。
在这个示例中,使用了政府税收法规政策文档。虽然我们可以按内容长度将文档分割成块,但我们经常会丢失章节和部分的上下文,而这些可能是用户需要的。
我们的方法是首先将文档分割成章节和部分,然后再导入到我们的向量存储中。此外,正确使用元数据对于允许过滤和范围查询至关重要。
示例
人类:”告诉我税收法规关于国际商业货物的规定?”
AI:”德克萨斯州财产税法规第11.25节涉及’专门用于国际商业的海洋货物集装箱’。在本节中,外国公民或实体…”
工作原理
– 从政府网站下载税收法规政策文档作为zip文件,并将其页面提取为单独的章节。
– 然后使用数据操作表达式解析每个章节并将其分割成各个部分。
– 每个部分都被插入到我们的Qdrant向量存储中,并使用其来源、章节和部分编号作为元数据进行标记。
– 当我们的AI代理需要从向量存储中检索数据时,我们使用自定义工作流工具执行对Qdrant的查询。
– 因为我们依赖Qdrant的高级过滤功能,我们使用Qdrant API而不是Qdrant节点执行搜索。
– 当AI代理需要提取完整措辞或摘录时,我们可以使用Qdrant的滚动API和元数据过滤来实现。这使得Qdrant的行为类似于我们文档的键值存储。
要求
– 需要Qdrant实例用于向量存储,特别是其过滤功能。
– Mistral.ai账户用于嵌入和AI模型。
自定义此工作流
根据您的用例,考虑向用户返回实际的PDF页面(或链接)以进行额外确认并建立信任。
不使用Mistral?您可以替换,但请注意将Qdrant集合的距离和维度大小与您选择的嵌入模型匹配。

评论(0)