
## 概述
一个全面的n8n自动化工作流,使用Bright Data抓取Trustpilot商业评论,并自动将结构化数据存储在Google表格中。
## 工作流架构
### 1. 📝 Form Trigger节点
– **目的**:用户手动输入界面
– **类型**:n8n-nodes-base.formTrigger
– **配置**:
– 表单标题:”网站URL”
– 字段:”Trustpilot网站URL”
– 功能:接受用户输入的Trustpilot URL以启动抓取过程
### 2. 🌐 HTTP请求(触发抓取)
– **目的**:在Bright Data平台上启动抓取
– **类型**:n8n-nodes-base.httpRequest
– **方法**:POST
– **端点**:https://api.brightdata.com/datasets/v3/trigger
– **配置**:
– 查询参数:
– dataset_id: gd_lm5zmhwd2sni130p
– include_errors: true
– limit_multiple_results: 2
– 头部:
– Authorization: Bearer BRIGHT_DATA_API_KEY
– 主体:包含输入URL和35+自定义输出字段的JSON
### 自定义输出字段
工作流提取以下数据点:
**公司信息**:company_name, company_logo, company_overall_rating, company_total_reviews, company_about, company_email, company_phone, company_location, company_country, company_category, company_id, company_website
**评论数据**:review_id, review_date, review_rating, review_title, review_content, review_date_of_experience, review_url, date_posted
**评论者信息**:reviewer_name, reviewer_location, reviews_posted_overall
**评论元数据**:is_verified_review, review_replies, review_useful_count
**评分分布**:5_star, 4_star, 3_star, 2_star, 1_star
**附加字段**:url, company_rating_name, is_verified_company, breadcrumbs, company_other_categories
### 3. ⌛ 快照进度检查
– **目的**:监控抓取作业状态
– **类型**:n8n-nodes-base.httpRequest
– **方法**:GET
– **端点**:https://api.brightdata.com/datasets/v3/progress/{{ $json.snapshot_id }}
– **配置**:
– 查询参数:format=json
– 头部:Authorization: Bearer BRIGHT_DATA_API_KEY
– **功能**:接收上一步的快照ID并检查数据是否准备就绪
### 4. ✅ IF节点(状态检查)
– **目的**:根据抓取状态确定下一步操作
– **类型**:n8n-nodes-base.if
– **条件**:$json.status === “ready”
– **逻辑**:
– 如果为真:继续数据下载
– 如果为假:触发等待循环
### 5. 🕒 等待节点
– **目的**:为未完成的作业实现轮询延迟
– **类型**:n8n-nodes-base.wait
– **持续时间**:1分钟
– **功能**:在重新检查快照状态之前暂停执行
### 6. 🔄 循环逻辑
– **目的**:持续监控直至完成
– **流程**:等待 → 检查状态 → 评估 → (循环或继续)
– **防止**:API速率限制和不必要的请求
### 7. 📥 快照下载
– **目的**:检索已完成的抓取数据
– **类型**:n8n-nodes-base.httpRequest
– **方法**:GET
– **端点**:https://api.brightdata.com/datasets/v3/snapshot/{{ $json.snapshot_id }}
– **配置**:
– 查询参数:format=json
– 头部:Authorization: Bearer BRIGHT_DATA_API_KEY
### 8. 📊 Google表格集成
– **目的**:将提取的数据存储在电子表格中
– **类型**:n8n-nodes-base.googleSheets
– **操作**:追加
– **配置**:
– 文档ID:1yQ10Q2qSjm-hhafHF2sXu-hohurW5_KD8fIv4IXEA3I
– 工作表名称:”Trustpilot”
– 映射:自动映射所有35+字段
– 凭据:Google OAuth2集成
## 数据流程
用户输入(URL)
↓
Bright Data API调用
↓
生成快照ID
↓
状态检查循环
↓
数据准备检查
↓
下载完整数据集
↓
追加到Google表格
## 技术规格
### 认证
– Bright Data:Bearer令牌认证
– Google表格:OAuth2集成
### 错误处理
– 在Bright Data请求中包含错误跟踪
– 条件逻辑防止无限循环
– 等待期防止API速率限制
### 数据处理
– 映射模式:自动映射输入数据
– 模式:35+预定义字段,字符串类型
– 转换:无类型转换(保留原始数据)
## 设置要求
### 先决条件
– Bright Data账户:具有API访问权限的有效账户
– Google账户:启用了Sheets API
– n8n实例:自托管或云版本
### 配置步骤
– API密钥:配置Bright Data bearer令牌
– OAuth设置:连接Google表格凭据
– 数据集ID:验证正确的Bright Data数据集ID
– 工作表访问:确保目标电子表格的适当权限
### 环境变量
– BRIGHT_DATA_API_KEY:您的Bright Data API认证令牌
## 使用案例
### 商业智能
– 竞争对手分析和市场研究
– 客户情绪监控
– 品牌声誉跟踪
### 数据分析
– 评论趋势分析
– 评分分布研究
– 客户反馈聚合
### 自动化优势
– **可扩展性**:顺序处理多个URL
– **可靠性**:内置错误处理和重试逻辑
– **效率**:自动数据收集和存储
– **一致性**:所有抓取的标准数据格式
## 限制和考虑因素
### 速率限制
– Bright Data API有使用限制
– 1分钟等待期有助于管理请求频率
### 数据量
– 每个请求限制为2个结果(可配置)
– 大型数据集可能需要多次工作流运行
### 合规性
– 确保符合Trustpilot的服务条款
– 尊重robots.txt和速率限制指南
## 监控和维护
### 状态跟踪
– 监控工作流执行日志
– 检查Google表格的数据准确性
– 查看Bright Data使用统计
### 定期更新
– 根据需要更新API密钥
– 验证数据集ID保持有效
– 定期测试工作流功能
## 工作流元数据
– 版本ID:dd3afc3c-91fc-474e-99e0-1b25e62ab392
– 实例ID:bc8ca75c203589705ae2e446cad7181d6f2a7cc1766f958ef9f34810e53b8cb2
– 执行顺序:v1
– 活动状态:当前不活动(需要手动激活)
– 模板状态:凭据设置已完成

评论(0)