💡🌐 使用Jina.ai的多页面网站抓取工具

负责任地使用并遵守当地规则和法规

此N8N工作流使用Jina.ai强大的网页抓取功能实现自动化的多页面网站抓取，并与Google Drive无缝集成以存储内容。以下是其工作原理：

主要功能

该工作流自动从网站的站点地图中抓取多个页面，并将每个页面的内容保存为单独的Google Drive文档。

关键组件

输入配置

以站点地图URL开始（默认：https://ai.pydantic.dev/sitemap.xml）
处理站点地图以提取各个页面URL
包含过滤选项以定位特定主题或页面

抓取过程

使用Jina.ai的网页抓取器从每个URL提取内容
将网页内容转换为干净的markdown格式
自动提取页面标题用于文档命名

存储集成

为每个抓取的页面创建单独的Google Drive文档
使用”URL – 页面标题”格式命名文档
以markdown格式保存内容以获得更好的可读性

使用说明
在”Set Website URL”节点中设置目标网站的站点地图URL
配置”Filter By Topics or Pages”节点以选择特定内容
调整”Limit”节点（默认：20页）以控制批处理大小
连接您的Google Drive帐户
运行工作流以开始自动抓取

附加功能
通过Wait节点内置速率限制以防止服务器过载
处理大型站点地图的批处理能力

该工作流不需要Jina.ai的API密钥，使其可立即使用，同时保持负责任的抓取实践。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

评论(0)