Google Drive向量数据库加载器 - n8n工作流实现自动文档向量化
Google Drive,向量数据库,n8n工作流,OpenAI嵌入,PGVector,文档处理,自动化,RAG

这个n8n工作流能够自动监控Google Drive文件夹中的新文件,支持PDF、TXT和JSON等多种文件格式,使用OpenAI的text-embedding-3-small模型将文档内容转换为向量嵌入,并存储到PostgreSQL数据库中(使用PGVector扩展)。处理完成后,文件会被移动到专门的”vectorized”文件夹以避免重复处理。

⚙️ 工作流功能

该工作流监控Google Drive文件夹中的新文件,支持多种文件类型(PDF、TXT、JSON),并使用OpenAI的text-embedding-3-small模型将它们处理成向量嵌入。这些嵌入存储在PostgreSQL数据库中(使用PGVector扩展),为语义搜索或基于RAG的AI代理做好准备。

成功处理后,文件会被移动到单独的”vectorized”文件夹以避免重复。

💡 应用场景
增强检索生成(RAG)AI代理
私有文档的语义搜索
AI助手知识摄取
索引或分类的自动化文档管道

🧠 工作流亮点
触发选项:手动或定时(默认每天凌晨3点)
支持的文件类型:PDF、TXT、JSON
嵌入技术栈:LangChain文本分割器、OpenAI嵌入、PGVector
去重机制:处理后移动文件
许可证:CC BY-SA 4.0
作者:AlexK1919

🛠️ 所需资源
Google Drive OAuth2凭据(连接到搜索文件夹、下载文件和移动文件节点)
OpenAI API密钥(在嵌入OpenAI节点中使用)
PostgreSQL + PGVector数据库(在Postgres PGVector存储节点中连接)

🔧 逐步设置说明
在n8n中创建Google OAuth2凭据,并将它们连接到所有Google Drive节点。
在搜索文件夹节点中设置源文件夹ID——这是传入文件放置的位置。
在移动文件节点中设置已处理文件夹ID——文件向量化后将移动到这里。
确保您有一个支持PGVector的PostgreSQL实例,并在Postgres PGVector存储节点中输入表名和集合。
将您的OpenAI凭据添加到嵌入OpenAI节点,并选择text-embedding-3-small。
可选:激活定时触发器节点以每天运行或配置您自己的计划。
通过触发”当点击’测试工作流'”来手动运行以进行按需摄取。

🧩 自定义提示

想要支持更多文件类型或增强管道?

添加新的提取器:使用文件提取其他格式,如DOCX、Markdown或HTML。
按文件类型优化逻辑:Switch节点根据MIME类型(application/pdf、text/plain、application/json)将文件路由到正确的提取方法。
使用OCR进行预处理:在提取之前添加OCR步骤以处理扫描的PDF或图像。
添加过滤器:增强搜索文件夹或Switch节点逻辑以跳过特定文件或文件夹。

📄 许可证

此工作流根据知识共享署名-相同方式共享4.0国际(CC BY-SA 4.0)许可证提供。您可以根据此许可证的条款自由使用、改编和共享此工作流——即使是商业用途。

完整许可证详情:https://creativecommons.org/licenses/by-sa/4.0/

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。