
这个工作流的目标是从任何网页收集数据,无论是否需要登录。
例如,您可以收集n8n-ultimate-scraper项目在GitHub上的星标数量。
## 要求
**Selenium容器**:Selenium是一个用于Web应用程序的开源自动化框架,通过各种编程语言中的脚本实现浏览器控制和交互。
您可以从相关的GitHub项目部署Docker Compose文件来设置您的Selenium容器和配置:https://github.com/Touxan/n8n-ultimate-scraper
**住宅代理服务器**:为了大规模抓取数据而不被阻止,我个人推荐GeoNode。他们提供价格合理、高质量的住宅代理:https://geonode.com/invite/98895
**OpenAI API密钥**:用于使用GPT-4。
## 可选
会话Cookie收集:要使用n8n终极抓取器的登录功能,您需要从目标网站收集会话Cookie。您可以使用GitHub项目中为此应用程序创建的扩展来执行此操作:https://github.com/Touxan/n8n-ultimate-scraper。按照安装过程使用它。
## 使用方法
部署包含所有要求的项目并请求您的webhook。
**请求示例**:
curl -X POST http://localhost:5678/webhook-test/yourwebhookid \
-H “Content-Type: application/json” \
-d ‘{
“subject”: “Hugging Face”,
“Url”: “github.com”,
“Target data”: [
{
“DataName”: “Followers”,
“description”: “GitHub页面的关注者数量”
},
{
“DataName”: “Total Stars”,
“description”: “不同仓库上的总星标数量”
}
],
“cookies”: []
}’
您也可以像这样抓取链接:
curl -X POST http://localhost:5678/webhook-test/67d77918-2d5b-48c1-ae73-2004b32125f0 \
-H “Content-Type: application/json” \
-d ‘{
“Target Url”: “https://github.com”,
“Target data”: [
{
“DataName”: “Followers”,
“description”: “GitHub页面的关注者数量”
},
{
“DataName”: “Total Stars”,
“description”: “不同仓库上的总星标数量”
}
]
}’
**注意**
目标数据的最大数量为5。

评论(0)