基于Dumpling AI和GPT-4o的网页产品信息提取n8n工作流
n8n工作流,网页截图提取,产品信息提取,Dumpling AI,GPT-4o,Google Sheets自动化,OCR技术,AI数据处理

## 工作流概述

这个n8n工作流专为电商团队、市场研究人员和产品分析师设计,用于从限制爬虫工具的网站中跟踪或提取产品信息。它通过截图和OCR技术绕过动态内容和反爬虫保护,实现可靠的产品数据提取。

## 工作流详细流程

### 1. 触发器设置
– **Trigger on New URL in Sheet**:监控Google Sheet中新添加的URL行
– 配置为每分钟轮询一次,实时检测新链接

### 2. 网页截图处理
– **Take Full-Page Screenshot using Dumpling AI**:通过Dumpling AI API捕获完整网页截图
– **Download Screenshot File**:下载截图文件
– **Save Screenshot to Drive Folder**:将截图保存到Google Drive指定文件夹

### 3. 文本提取与分析
– **Extract All Visible Data from Screenshot (Dumpling AI)**:使用Dumpling AI的OCR功能提取截图中的所有可见文本
– **Extract Product Info from Screenshot Text with GPT-4o**:通过GPT-4o分析提取的文本,结构化产品信息

### 4. 数据处理与存储
– **Split Each Product into Individual Record**:将GPT-4o返回的产品数组拆分为单个记录
– **Save Products info to Google Sheet**:将结构化产品信息写入Google Sheet
– **Log Screenshot URL to Spreadsheet**:记录截图URL到原始表格

## 技术配置要点

### Google Sheets设置
– 需要创建包含两个工作表的Google Sheet
– Sheet1包含URL列用于监控新链接
– Sheet2包含产品名称、价格、购买量、评分、优惠、购买选项等列

### API集成配置
– **Dumpling AI**:需要注册并获取API密钥,用于截图和OCR功能
– **OpenAI GPT-4o**:配置API密钥用于产品信息结构化提取
– **Google Drive**:设置文件夹权限用于存储截图文件

## 自定义选项

– 调整GPT提示以返回不同的产品字段
– 添加过滤节点限制写入最终表格的产品类型
– 集成情感分析功能分析评论内容
– 替换Google Drive为其他文件存储服务

## 应用场景

– 电商竞争对手价格监控
– 产品信息自动化收集
– 市场调研数据采集
– 虚拟助手产品比较任务

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。