Selenium终极网页抓取器工作流 - 基于AI的自动化数据提取解决方案
Selenium网页抓取,AI数据提取,n8n工作流,自动化数据收集,GPT-4网页分析,网页数据抓取

这个工作流的目标是从任何网页收集数据,无论是否需要登录。

例如,您可以收集n8n-ultimate-scraper项目在GitHub上的星标数量。

## 要求
**Selenium容器**:Selenium是一个用于Web应用程序的开源自动化框架,通过各种编程语言中的脚本实现浏览器控制和交互。
您可以从相关的GitHub项目部署Docker Compose文件来设置您的Selenium容器和配置:https://github.com/Touxan/n8n-ultimate-scraper

**住宅代理服务器**:为了大规模抓取数据而不被阻止,我个人推荐GeoNode。他们提供价格合理、高质量的住宅代理:https://geonode.com/invite/98895

**OpenAI API密钥**:用于使用GPT-4。

## 可选
会话Cookie收集:要使用n8n终极抓取器的登录功能,您需要从目标网站收集会话Cookie。您可以使用GitHub项目中为此应用程序创建的扩展来执行此操作:https://github.com/Touxan/n8n-ultimate-scraper。按照安装过程使用它。

## 使用方法
部署包含所有要求的项目并请求您的webhook。

**请求示例**:
curl -X POST http://localhost:5678/webhook-test/yourwebhookid \
-H “Content-Type: application/json” \
-d ‘{
“subject”: “Hugging Face”,
“Url”: “github.com”,
“Target data”: [
{
“DataName”: “Followers”,
“description”: “GitHub页面的关注者数量”
},
{
“DataName”: “Total Stars”,
“description”: “不同仓库上的总星标数量”
}
],
“cookies”: []
}’

您也可以像这样抓取链接:
curl -X POST http://localhost:5678/webhook-test/67d77918-2d5b-48c1-ae73-2004b32125f0 \
-H “Content-Type: application/json” \
-d ‘{
“Target Url”: “https://github.com”,
“Target data”: [
{
“DataName”: “Followers”,
“description”: “GitHub页面的关注者数量”
},
{
“DataName”: “Total Stars”,
“description”: “不同仓库上的总星标数量”
}
]
}’

**注意**
目标数据的最大数量为5。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。