
## 工作流概述
这个n8n工作流专为电商团队、市场研究人员和产品分析师设计,用于从限制爬虫工具的网站中跟踪或提取产品信息。它通过截图和OCR技术绕过动态内容和反爬虫保护,实现可靠的产品数据提取。
## 工作流详细流程
### 1. 触发器设置
– **Trigger on New URL in Sheet**:监控Google Sheet中新添加的URL行
– 配置为每分钟轮询一次,实时检测新链接
### 2. 网页截图处理
– **Take Full-Page Screenshot using Dumpling AI**:通过Dumpling AI API捕获完整网页截图
– **Download Screenshot File**:下载截图文件
– **Save Screenshot to Drive Folder**:将截图保存到Google Drive指定文件夹
### 3. 文本提取与分析
– **Extract All Visible Data from Screenshot (Dumpling AI)**:使用Dumpling AI的OCR功能提取截图中的所有可见文本
– **Extract Product Info from Screenshot Text with GPT-4o**:通过GPT-4o分析提取的文本,结构化产品信息
### 4. 数据处理与存储
– **Split Each Product into Individual Record**:将GPT-4o返回的产品数组拆分为单个记录
– **Save Products info to Google Sheet**:将结构化产品信息写入Google Sheet
– **Log Screenshot URL to Spreadsheet**:记录截图URL到原始表格
## 技术配置要点
### Google Sheets设置
– 需要创建包含两个工作表的Google Sheet
– Sheet1包含URL列用于监控新链接
– Sheet2包含产品名称、价格、购买量、评分、优惠、购买选项等列
### API集成配置
– **Dumpling AI**:需要注册并获取API密钥,用于截图和OCR功能
– **OpenAI GPT-4o**:配置API密钥用于产品信息结构化提取
– **Google Drive**:设置文件夹权限用于存储截图文件
## 自定义选项
– 调整GPT提示以返回不同的产品字段
– 添加过滤节点限制写入最终表格的产品类型
– 集成情感分析功能分析评论内容
– 替换Google Drive为其他文件存储服务
## 应用场景
– 电商竞争对手价格监控
– 产品信息自动化收集
– 市场调研数据采集
– 虚拟助手产品比较任务

评论(0)