AI自动化网络抓取工作流 - 自动提取书籍数据到Google Sheets
n8n工作流,AI网络抓取,Google Sheets自动化,数据提取,书籍信息收集,自动化数据处理

工作流目的:
该工作流的目的是自动化网站抓取,将其转换为结构化格式,并直接加载到Google Sheets电子表格中。

工作原理:

网络抓取:使用Jina AI服务抓取网站数据并将其转换为LLM友好的文本。
信息提取:使用AI节点从抓取的数据中提取特定的书籍详细信息(标题、价格、可用性、图片URL、产品URL)。
数据拆分:将提取的信息拆分为单独的书籍条目。
Google Sheets集成:自动将结构化书籍数据填充到Google Sheets电子表格中。

逐步设置:

设置Jina AI服务:
注册Jina AI账户并获取API密钥。

配置HTTP Request节点:
输入带有目标网站的Jina AI URL。
将API密钥添加到请求标头中进行身份验证。

设置Information Extractor节点:
使用Claude AI生成数据提取的JSON模式。
将目标网站的截图上传到Claude AI。
要求Claude AI建议提取所需信息的JSON模式。
将生成的模式复制到Information Extractor节点中。

配置Split节点:
将其设置为将提取的数据分离为单独的书籍条目。

设置Google Sheets节点:
创建一个带有标题、价格、可用性、图片URL和产品URL列的Google Sheets电子表格。
配置节点以将提取的数据映射到适当的列。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。