Trustpilot洞察抓取器:通过Bright Data自动获取评论并同步到Google表格 - n8n工作流自动化
n8n工作流,Trustpilot抓取,Bright Data,Google Sheets集成,数据自动化,评论分析,API集成

## 概述

一个全面的n8n自动化工作流,使用Bright Data抓取Trustpilot商业评论,并自动将结构化数据存储在Google表格中。

## 工作流架构

### 1. 📝 Form Trigger节点
– **目的**:用户手动输入界面
– **类型**:n8n-nodes-base.formTrigger
– **配置**:
– 表单标题:”网站URL”
– 字段:”Trustpilot网站URL”
– 功能:接受用户输入的Trustpilot URL以启动抓取过程

### 2. 🌐 HTTP请求(触发抓取)
– **目的**:在Bright Data平台上启动抓取
– **类型**:n8n-nodes-base.httpRequest
– **方法**:POST
– **端点**:https://api.brightdata.com/datasets/v3/trigger
– **配置**:
– 查询参数:
– dataset_id: gd_lm5zmhwd2sni130p
– include_errors: true
– limit_multiple_results: 2
– 头部:
– Authorization: Bearer BRIGHT_DATA_API_KEY
– 主体:包含输入URL和35+自定义输出字段的JSON

### 自定义输出字段

工作流提取以下数据点:

**公司信息**:company_name, company_logo, company_overall_rating, company_total_reviews, company_about, company_email, company_phone, company_location, company_country, company_category, company_id, company_website

**评论数据**:review_id, review_date, review_rating, review_title, review_content, review_date_of_experience, review_url, date_posted

**评论者信息**:reviewer_name, reviewer_location, reviews_posted_overall

**评论元数据**:is_verified_review, review_replies, review_useful_count

**评分分布**:5_star, 4_star, 3_star, 2_star, 1_star

**附加字段**:url, company_rating_name, is_verified_company, breadcrumbs, company_other_categories

### 3. ⌛ 快照进度检查
– **目的**:监控抓取作业状态
– **类型**:n8n-nodes-base.httpRequest
– **方法**:GET
– **端点**:https://api.brightdata.com/datasets/v3/progress/{{ $json.snapshot_id }}
– **配置**:
– 查询参数:format=json
– 头部:Authorization: Bearer BRIGHT_DATA_API_KEY
– **功能**:接收上一步的快照ID并检查数据是否准备就绪

### 4. ✅ IF节点(状态检查)
– **目的**:根据抓取状态确定下一步操作
– **类型**:n8n-nodes-base.if
– **条件**:$json.status === “ready”
– **逻辑**:
– 如果为真:继续数据下载
– 如果为假:触发等待循环

### 5. 🕒 等待节点
– **目的**:为未完成的作业实现轮询延迟
– **类型**:n8n-nodes-base.wait
– **持续时间**:1分钟
– **功能**:在重新检查快照状态之前暂停执行

### 6. 🔄 循环逻辑
– **目的**:持续监控直至完成
– **流程**:等待 → 检查状态 → 评估 → (循环或继续)
– **防止**:API速率限制和不必要的请求

### 7. 📥 快照下载
– **目的**:检索已完成的抓取数据
– **类型**:n8n-nodes-base.httpRequest
– **方法**:GET
– **端点**:https://api.brightdata.com/datasets/v3/snapshot/{{ $json.snapshot_id }}
– **配置**:
– 查询参数:format=json
– 头部:Authorization: Bearer BRIGHT_DATA_API_KEY

### 8. 📊 Google表格集成
– **目的**:将提取的数据存储在电子表格中
– **类型**:n8n-nodes-base.googleSheets
– **操作**:追加
– **配置**:
– 文档ID:1yQ10Q2qSjm-hhafHF2sXu-hohurW5_KD8fIv4IXEA3I
– 工作表名称:”Trustpilot”
– 映射:自动映射所有35+字段
– 凭据:Google OAuth2集成

## 数据流程

用户输入(URL)

Bright Data API调用

生成快照ID

状态检查循环

数据准备检查

下载完整数据集

追加到Google表格

## 技术规格

### 认证
– Bright Data:Bearer令牌认证
– Google表格:OAuth2集成

### 错误处理
– 在Bright Data请求中包含错误跟踪
– 条件逻辑防止无限循环
– 等待期防止API速率限制

### 数据处理
– 映射模式:自动映射输入数据
– 模式:35+预定义字段,字符串类型
– 转换:无类型转换(保留原始数据)

## 设置要求

### 先决条件
– Bright Data账户:具有API访问权限的有效账户
– Google账户:启用了Sheets API
– n8n实例:自托管或云版本

### 配置步骤
– API密钥:配置Bright Data bearer令牌
– OAuth设置:连接Google表格凭据
– 数据集ID:验证正确的Bright Data数据集ID
– 工作表访问:确保目标电子表格的适当权限

### 环境变量
– BRIGHT_DATA_API_KEY:您的Bright Data API认证令牌

## 使用案例

### 商业智能
– 竞争对手分析和市场研究
– 客户情绪监控
– 品牌声誉跟踪

### 数据分析
– 评论趋势分析
– 评分分布研究
– 客户反馈聚合

### 自动化优势
– **可扩展性**:顺序处理多个URL
– **可靠性**:内置错误处理和重试逻辑
– **效率**:自动数据收集和存储
– **一致性**:所有抓取的标准数据格式

## 限制和考虑因素

### 速率限制
– Bright Data API有使用限制
– 1分钟等待期有助于管理请求频率

### 数据量
– 每个请求限制为2个结果(可配置)
– 大型数据集可能需要多次工作流运行

### 合规性
– 确保符合Trustpilot的服务条款
– 尊重robots.txt和速率限制指南

## 监控和维护

### 状态跟踪
– 监控工作流执行日志
– 检查Google表格的数据准确性
– 查看Bright Data使用统计

### 定期更新
– 根据需要更新API密钥
– 验证数据集ID保持有效
– 定期测试工作流功能

## 工作流元数据

– 版本ID:dd3afc3c-91fc-474e-99e0-1b25e62ab392
– 实例ID:bc8ca75c203589705ae2e446cad7181d6f2a7cc1766f958ef9f34810e53b8cb2
– 执行顺序:v1
– 活动状态:当前不活动(需要手动激活)
– 模板状态:凭据设置已完成

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。