
这个n8n工作流能够自动监控Google Drive文件夹中的新文件,支持PDF、TXT和JSON等多种文件格式,使用OpenAI的text-embedding-3-small模型将文档内容转换为向量嵌入,并存储到PostgreSQL数据库中(使用PGVector扩展)。处理完成后,文件会被移动到专门的”vectorized”文件夹以避免重复处理。
⚙️ 工作流功能
该工作流监控Google Drive文件夹中的新文件,支持多种文件类型(PDF、TXT、JSON),并使用OpenAI的text-embedding-3-small模型将它们处理成向量嵌入。这些嵌入存储在PostgreSQL数据库中(使用PGVector扩展),为语义搜索或基于RAG的AI代理做好准备。
成功处理后,文件会被移动到单独的”vectorized”文件夹以避免重复。
💡 应用场景
增强检索生成(RAG)AI代理
私有文档的语义搜索
AI助手知识摄取
索引或分类的自动化文档管道
🧠 工作流亮点
触发选项:手动或定时(默认每天凌晨3点)
支持的文件类型:PDF、TXT、JSON
嵌入技术栈:LangChain文本分割器、OpenAI嵌入、PGVector
去重机制:处理后移动文件
许可证:CC BY-SA 4.0
作者:AlexK1919
🛠️ 所需资源
Google Drive OAuth2凭据(连接到搜索文件夹、下载文件和移动文件节点)
OpenAI API密钥(在嵌入OpenAI节点中使用)
PostgreSQL + PGVector数据库(在Postgres PGVector存储节点中连接)
🔧 逐步设置说明
在n8n中创建Google OAuth2凭据,并将它们连接到所有Google Drive节点。
在搜索文件夹节点中设置源文件夹ID——这是传入文件放置的位置。
在移动文件节点中设置已处理文件夹ID——文件向量化后将移动到这里。
确保您有一个支持PGVector的PostgreSQL实例,并在Postgres PGVector存储节点中输入表名和集合。
将您的OpenAI凭据添加到嵌入OpenAI节点,并选择text-embedding-3-small。
可选:激活定时触发器节点以每天运行或配置您自己的计划。
通过触发”当点击’测试工作流'”来手动运行以进行按需摄取。
🧩 自定义提示
想要支持更多文件类型或增强管道?
添加新的提取器:使用文件提取其他格式,如DOCX、Markdown或HTML。
按文件类型优化逻辑:Switch节点根据MIME类型(application/pdf、text/plain、application/json)将文件路由到正确的提取方法。
使用OCR进行预处理:在提取之前添加OCR步骤以处理扫描的PDF或图像。
添加过滤器:增强搜索文件夹或Switch节点逻辑以跳过特定文件或文件夹。
📄 许可证
此工作流根据知识共享署名-相同方式共享4.0国际(CC BY-SA 4.0)许可证提供。您可以根据此许可证的条款自由使用、改编和共享此工作流——即使是商业用途。
完整许可证详情:https://creativecommons.org/licenses/by-sa/4.0/

评论(0)