
此n8n自动化旨在使用基于上下文的分块从文档中提取、处理和存储内容到Pinecone向量存储中。该工作流通过确保每个块保留有意义的上下文来增强RAG(检索增强生成)设置中的检索准确性。
工作流分解:
🔹 Google Drive – 检索文档:
自动化从Google Drive获取源文档开始。该文档包含结构化内容,带有预定义的边界标记以便于分段。
🔹 提取文本内容 – 一旦检索到,文档的文本将被提取进行处理。使用特殊的部分边界标记将文本划分为逻辑部分。
🔹 代码节点 – 创建基于上下文的块:
自定义代码节点处理提取的文本,识别部分边界并将文档分割为有意义的块。每个块都被结构化以保留其在完整文档中的上下文。
🔹 循环节点 – 处理每个块:
工作流循环遍历每个块,确保它们被单独处理,同时保持与整体文档上下文的连接。
🔹 代理节点 – 为每个块生成上下文:
我们使用通过OpenRouter的OpenAI GPT-4.0-mini提供支持的代理节点为每个块生成上下文元数据,确保更好的检索准确性。
🔹 将上下文前置到块并创建嵌入 – 生成的上下文被前置到原始块中,创建上下文丰富的嵌入以提高可搜索性。
🔹 Google Gemini – 文本嵌入:
处理后的文本通过Google Gemini text-embedding-004传递,将文本转换为语义向量表示。
🔹 Pinecone向量存储 – 存储嵌入:
最终的嵌入以及丰富的块内容和元数据存储在Pinecone中,使它们易于在基于RAG的AI应用程序中检索。
用例:
此自动化通过确保每个块在上下文中了解整个文档来增强RAG检索,从而获得更准确的AI响应。它非常适合需要语义搜索、AI驱动的知识管理或智能文档检索的应用程序。
通过实施基于上下文的分块,此工作流确保LLM检索最相关的数据,提高AI驱动应用程序中的响应质量和准确性。

评论(0)