
这个工作流实现了一个检索增强生成(RAG)系统,集成了Google Drive和Qdrant。该设置创建了一个强大的、自我更新的知识库,为用户查询提供准确、上下文感知的答案。
## 主要优势
**自动知识库更新**
无需手动干预——Google Drive中的文档会自动与Qdrant同步。
**高效搜索和检索**
向量嵌入支持快速精确地检索相关信息。
**可扩展和灵活**
适用于多个文档,并支持数据集的持续增长。
**无缝AI集成**
结合OpenAI嵌入进行向量化和Google Gemini提供高质量的自然语言答案。
**元数据增强存储**
每个文档存储元数据(文件ID和名称),便于管理和跟踪文档版本。
**端到端RAG管道**
从文档摄取到AI驱动的问答,所有操作都在一个n8n工作流中处理。
## 工作原理
这个工作流实现了一个检索增强生成(RAG)系统,自动处理、存储和检索文档信息以进行AI驱动的问答。以下是其功能方式:
**文档处理与向量化:**
– 系统监控指定的Google Drive文件夹中的新文件或更新文件。
– 当添加或修改文件时,使用递归字符文本分割器将其下载并分割成可管理的块。
– 使用OpenAI的嵌入模型将每个块转换为向量嵌入。
– 这些向量以及元数据(文件ID、文件名)存储在Qdrant向量数据库中。
**自动更新:**
– 工作流包含一种机制,在插入新向量之前删除与更新文件相关的旧向量,确保知识库保持最新。
**查询处理与响应生成:**
– 当用户发送聊天消息(通过聊天触发器)时,系统:
– 根据查询的语义相似性从Qdrant检索最相关的文档块。
– 使用Google Gemini语言模型生成基于检索文档的上下文感知答案。
– 这提供了准确、基于来源的响应,而不是仅仅依赖AI的内部知识。
**初始设置与维护:**
– 可以手动触发工作流以创建Qdrant集合或清除所有现有数据。
– 在初始设置期间处理Drive文件夹中的所有现有文件,填充向量存储。
## 设置步骤
要配置此工作流,请按照以下步骤操作:
**步骤1:创建Qdrant集合**
– 将”创建集合”和”清除集合”节点中的QDRANTURL替换为您的Qdrant实例URL(例如http://your-qdrant-host:6333)。
– 将COLLECTION替换为您所需的集合名称。
– 确保Qdrant API凭据在相应的HTTP Request节点中正确设置。
**步骤2:配置Google Drive访问**
– 为Google Drive设置OAuth凭据,允许工作流:
– 从特定文件夹读取文件。
– 下载文件进行处理。
– 更新”搜索文件”和”更新?”触发器节点中的文件夹ID,指向您的目标Google Drive文件夹。
**步骤3:设置AI模型**
– 在Embeddings节点中配置OpenAI API凭据以生成文本嵌入。
– 在Google Gemini Chat Model节点中配置Google Gemini(PaLM)API凭据以生成答案。
**步骤4:配置元数据**
– 系统自动将元数据(file_id、file_name)附加到每个文档块。这在Default Data Loader节点中设置。
– 此元数据对于识别信息来源和更新机制至关重要。
**步骤5:测试RAG系统**
– 工作流包含一个聊天触发器(”当收到聊天消息时”)用于测试。
– 发送查询以测试检索和答案生成过程。

评论(0)