构建Google Drive向量数据库加载器：自动文档向量化工作流

Google Drive向量数据库加载器 - n8n工作流实现自动文档向量化 — Google Drive,向量数据库,n8n工作流,OpenAI嵌入,PGVector,文档处理,自动化,RAG

这个n8n工作流能够自动监控Google Drive文件夹中的新文件，支持PDF、TXT和JSON等多种文件格式，使用OpenAI的text-embedding-3-small模型将文档内容转换为向量嵌入，并存储到PostgreSQL数据库中（使用PGVector扩展）。处理完成后，文件会被移动到专门的”vectorized”文件夹以避免重复处理。

⚙️ 工作流功能

该工作流监控Google Drive文件夹中的新文件，支持多种文件类型（PDF、TXT、JSON），并使用OpenAI的text-embedding-3-small模型将它们处理成向量嵌入。这些嵌入存储在PostgreSQL数据库中（使用PGVector扩展），为语义搜索或基于RAG的AI代理做好准备。

成功处理后，文件会被移动到单独的”vectorized”文件夹以避免重复。

💡 应用场景
增强检索生成（RAG）AI代理
私有文档的语义搜索
AI助手知识摄取
索引或分类的自动化文档管道

🧠 工作流亮点
触发选项：手动或定时（默认每天凌晨3点）
支持的文件类型：PDF、TXT、JSON
嵌入技术栈：LangChain文本分割器、OpenAI嵌入、PGVector
去重机制：处理后移动文件
许可证：CC BY-SA 4.0
作者：AlexK1919

🛠️ 所需资源
Google Drive OAuth2凭据（连接到搜索文件夹、下载文件和移动文件节点）
OpenAI API密钥（在嵌入OpenAI节点中使用）
PostgreSQL + PGVector数据库（在Postgres PGVector存储节点中连接）

🔧 逐步设置说明
在n8n中创建Google OAuth2凭据，并将它们连接到所有Google Drive节点。
在搜索文件夹节点中设置源文件夹ID——这是传入文件放置的位置。
在移动文件节点中设置已处理文件夹ID——文件向量化后将移动到这里。
确保您有一个支持PGVector的PostgreSQL实例，并在Postgres PGVector存储节点中输入表名和集合。
将您的OpenAI凭据添加到嵌入OpenAI节点，并选择text-embedding-3-small。
可选：激活定时触发器节点以每天运行或配置您自己的计划。
通过触发”当点击’测试工作流'”来手动运行以进行按需摄取。

🧩 自定义提示

想要支持更多文件类型或增强管道？

添加新的提取器：使用文件提取其他格式，如DOCX、Markdown或HTML。
按文件类型优化逻辑：Switch节点根据MIME类型（application/pdf、text/plain、application/json）将文件路由到正确的提取方法。
使用OCR进行预处理：在提取之前添加OCR步骤以处理扫描的PDF或图像。
添加过滤器：增强搜索文件夹或Switch节点逻辑以跳过特定文件或文件夹。

📄 许可证

此工作流根据知识共享署名-相同方式共享4.0国际（CC BY-SA 4.0）许可证提供。您可以根据此许可证的条款自由使用、改编和共享此工作流——即使是商业用途。

完整许可证详情：https://creativecommons.org/licenses/by-sa/4.0/

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

构建Google Drive向量数据库加载器：自动文档向量化工作流

评论(0)

提示：请文明发言取消回复

近期文章

近期评论

构建Google Drive向量数据库加载器：自动文档向量化工作流

评论(0)

提示：请文明发言 取消回复

相关文章

文本转日历事件工作流：AI智能解析并创建日历事件

自动工作流备份到Google Drive

新闻稿管理系统（n8n + Bolt.new）

Notion到Webflow博客文章同步工作流

近期文章

近期评论

提示：请文明发言取消回复