
这个n8n工作流实现了从Google Drive自动监控、提取和处理PDF、DOCX及图像文件的完整自动化流程。
## 工作流概述
该工作流通过Google Drive触发器监控指定文件夹中的新文件和更新文件,使用Mistral AI的OCR功能提取文档内容,并将结果保存到Google Drive和Google Sheets中进行跟踪管理。
## 核心功能
### 1. 文件监控与处理
– **Google Drive触发器**:监控文件夹中的文件创建和更新事件
– **文件类型识别**:自动识别PDF、DOCX、PNG、JPEG等支持的文件格式
– **智能文件处理**:为每个文件创建独立的处理目录
### 2. OCR文本提取
– **Mistral AI集成**:使用Mistral Document API进行OCR处理
– **多格式支持**:支持PDF文档、Word文档和图像文件的文本提取
– **图像处理**:提取文档中的图像并单独保存
### 3. 内容输出与组织
– **Markdown文件**:为每个页面生成单独的Markdown文件
– **聚合文档**:创建包含所有内容的完整Markdown文件
– **原始数据**:保存OCR处理的原始JSON数据
– **图像文件**:提取并保存文档中的图像
### 4. 进度跟踪与通知
– **Google Sheets集成**:实时跟踪处理状态和进度
– **Slack通知**:发送成功和错误通知到指定频道
– **状态管理**:记录开始时间、完成时间和处理状态
## 技术实现
### 主要节点
– **Google Drive Trigger**:文件监控触发器
– **Set**:数据设置和变量管理
– **HTTP Request**:调用Mistral AI OCR API
– **Google Drive**:文件操作和管理
– **Google Sheets**:数据跟踪和状态管理
– **SplitOut**:数据分割处理
– **Aggregate**:数据聚合
– **Code**:JavaScript代码处理
– **ConvertToFile**:文件格式转换
– **Slack**:通知发送
### 支持的文档类型
– PDF文档 (application/pdf)
– Word文档 (application/vnd.openxmlformats-officedocument.wordprocessingml.document)
– 图像文件 (image/png, image/jpeg, image/jpg)
## 应用场景
### 文档处理自动化
– 企业文档数字化处理
– 学术论文内容提取
– 合同和报告自动化处理
### 数据管道构建
– RAG系统数据预处理
– 多语言翻译数据准备
– 知识库内容提取
### 业务流程优化
– 自动化文档归档
– 内容分析和索引
– 数据备份和迁移
## 配置要求
### 必需账户
– Google账户(Drive和Sheets API访问权限)
– Mistral Cloud账户(API密钥)
– Slack账户(通知功能)
### 技术需求
– n8n基础操作知识
– API集成理解
– 文件处理流程管理
这个工作流为构建数据提取和处理管道提供了完整的解决方案,特别适合需要批量处理文档和图像内容的业务场景。

评论(0)