
这个工作流专为虚拟助理、研究人员、开发人员、自动化专家和数据分析师设计,他们需要定期从网站提取和组织结构化产品信息(如书籍)。特别适用于处理基于目录的网站,希望自动化提取和交付干净、排序的数据。
### 解决的问题
手动从网站复制产品列表(如书名和价格)到电子表格既缓慢又重复。此自动化通过使用Dumpling AI抓取内容,使用CSS选择器提取正确数据,并将其格式化为干净的CSV文件发送到您的邮箱,解决了这个问题 – 当Google表格中添加新URL时自动触发。
### 工作流功能
此模板自动化了整个内容抓取和交付过程:
– 监视Google表格中的新URL
– 使用Dumpling AI抓取给定网页的HTML内容
– 在HTML节点中使用CSS选择器从页面提取每本书
– 将HTML数组拆分为单独的项目
– 从每个HTML块中提取书名和价格
– 根据价格按降序对书籍进行排序
– 将排序后的数据转换为CSV文件
– 使用Gmail通过电子邮件发送CSV
### 设置指南
**Google表格**
– 创建一个标题为URLs的表格
– 添加您的产品列表URL(例如http://books.toscrape.com)
– 将Google Sheets触发器节点连接到您的表格
– 确保您已连接适当的凭据
**Dumpling AI**
– 在Dumpling AI创建账户 – 生成您的API密钥
– 将HTTP方法设置为POST,并从Google表格动态传递URL
– 使用Header Auth在请求头中包含您的API密钥
– 确保在请求体中包含”cleaned”: “True”以获得优化的HTML输出
**HTML节点**
– 第一个HTML节点使用.row > li提取主要书籍容器块
– 第二个HTML节点解析出各个字段:
– title: h3 > a(通过title属性)
– price: .price_color
**排序节点**
– 按价格降序排序书籍
– 注意:价格作为字符串提取,如果计划稍后使用数字过滤,请确保其可解析
**转换为CSV**
– JSON数据传递到Convert节点并转换为CSV文件
**Gmail**
– 将CSV作为附件发送到指定邮箱
### 自定义选项
– 提取更多数据:在第二个HTML节点中添加更多CSS选择器以提取作者、可用性或产品链接等字段
– 切换目的地:将Gmail替换为Slack、Google Drive、Dropbox或其他平台
– 调整排序:按字母顺序或其他提取值排序
– 使用不同来源:只要网站结构一致,这可以抓取任何类似列表的页面
– 不同触发方式:使用webhook、表单提交或计划触发器代替Google表格
### 依赖项和注意事项
– 此工作流使用Dumpling AI执行网页抓取。这需要API密钥并按请求使用积分。
– HTML节点依赖于有效的CSS选择器。如果网站布局更改,可能需要更新选择器。
– 确保您没有从禁止自动抓取的网站抓取内容。

评论(0)