使用Jina.ai的多页面网站抓取工具 - N8N自动化工作流
N8N工作流,Jina.ai,网站抓取,多页面抓取,自动化,数据提取,Google Drive集成

💡🌐 使用Jina.ai的多页面网站抓取工具

负责任地使用并遵守当地规则和法规

此N8N工作流使用Jina.ai强大的网页抓取功能实现自动化的多页面网站抓取,并与Google Drive无缝集成以存储内容。以下是其工作原理:

主要功能

该工作流自动从网站的站点地图中抓取多个页面,并将每个页面的内容保存为单独的Google Drive文档。

关键组件

输入配置

以站点地图URL开始(默认:https://ai.pydantic.dev/sitemap.xml)
处理站点地图以提取各个页面URL
包含过滤选项以定位特定主题或页面

抓取过程

使用Jina.ai的网页抓取器从每个URL提取内容
将网页内容转换为干净的markdown格式
自动提取页面标题用于文档命名

存储集成

为每个抓取的页面创建单独的Google Drive文档
使用”URL – 页面标题”格式命名文档
以markdown格式保存内容以获得更好的可读性

使用说明
在”Set Website URL”节点中设置目标网站的站点地图URL
配置”Filter By Topics or Pages”节点以选择特定内容
调整”Limit”节点(默认:20页)以控制批处理大小
连接您的Google Drive帐户
运行工作流以开始自动抓取

附加功能
通过Wait节点内置速率限制以防止服务器过载
处理大型站点地图的批处理能力

该工作流不需要Jina.ai的API密钥,使其可立即使用,同时保持负责任的抓取实践。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。