
💡🌐 使用Jina.ai的多页面网站抓取工具
负责任地使用并遵守当地规则和法规
此N8N工作流使用Jina.ai强大的网页抓取功能实现自动化的多页面网站抓取,并与Google Drive无缝集成以存储内容。以下是其工作原理:
主要功能
该工作流自动从网站的站点地图中抓取多个页面,并将每个页面的内容保存为单独的Google Drive文档。
关键组件
输入配置
以站点地图URL开始(默认:https://ai.pydantic.dev/sitemap.xml)
处理站点地图以提取各个页面URL
包含过滤选项以定位特定主题或页面
抓取过程
使用Jina.ai的网页抓取器从每个URL提取内容
将网页内容转换为干净的markdown格式
自动提取页面标题用于文档命名
存储集成
为每个抓取的页面创建单独的Google Drive文档
使用”URL – 页面标题”格式命名文档
以markdown格式保存内容以获得更好的可读性
使用说明
在”Set Website URL”节点中设置目标网站的站点地图URL
配置”Filter By Topics or Pages”节点以选择特定内容
调整”Limit”节点(默认:20页)以控制批处理大小
连接您的Google Drive帐户
运行工作流以开始自动抓取
附加功能
通过Wait节点内置速率限制以防止服务器过载
处理大型站点地图的批处理能力
该工作流不需要Jina.ai的API密钥,使其可立即使用,同时保持负责任的抓取实践。
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

评论(0)