Selenium终极网页抓取器工作流

这个工作流的目标是从任何网页收集数据，无论是否需要登录。

例如，您可以收集n8n-ultimate-scraper项目在GitHub上的星标数量。

## 要求
**Selenium容器**：Selenium是一个用于Web应用程序的开源自动化框架，通过各种编程语言中的脚本实现浏览器控制和交互。
您可以从相关的GitHub项目部署Docker Compose文件来设置您的Selenium容器和配置：https://github.com/Touxan/n8n-ultimate-scraper

**住宅代理服务器**：为了大规模抓取数据而不被阻止，我个人推荐GeoNode。他们提供价格合理、高质量的住宅代理：https://geonode.com/invite/98895

**OpenAI API密钥**：用于使用GPT-4。

## 可选
会话Cookie收集：要使用n8n终极抓取器的登录功能，您需要从目标网站收集会话Cookie。您可以使用GitHub项目中为此应用程序创建的扩展来执行此操作：https://github.com/Touxan/n8n-ultimate-scraper。按照安装过程使用它。

## 使用方法
部署包含所有要求的项目并请求您的webhook。

**请求示例**：
curl -X POST http://localhost:5678/webhook-test/yourwebhookid \
-H “Content-Type: application/json” \
-d ‘{
“subject”: “Hugging Face”,
“Url”: “github.com”,
“Target data”: [
{
“DataName”: “Followers”,
“description”: “GitHub页面的关注者数量”
},
{
“DataName”: “Total Stars”,
“description”: “不同仓库上的总星标数量”
}
],
“cookies”: []
}’

您也可以像这样抓取链接：
curl -X POST http://localhost:5678/webhook-test/67d77918-2d5b-48c1-ae73-2004b32125f0 \
-H “Content-Type: application/json” \
-d ‘{
“Target Url”: “https://github.com”,
“Target data”: [
{
“DataName”: “Followers”,
“description”: “GitHub页面的关注者数量”
},
{
“DataName”: “Total Stars”,
“description”: “不同仓库上的总星标数量”
}
]
}’

**注意**
目标数据的最大数量为5。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

Selenium终极网页抓取器工作流

评论(0)

提示：请文明发言取消回复

近期文章

近期评论

Selenium终极网页抓取器工作流

评论(0)

提示：请文明发言 取消回复

相关文章

使用TheOddsAPI和Airtable自动化体育博彩数据检索

Telegram任务管理助手工作流 – 集成Google Tasks与AI智能助手

将Notion联系人同步到Google联系人并添加分组标签

AI系统提示调优器 – 使用GPT-4o优化智能代理提示

近期文章

近期评论

提示：请文明发言取消回复