
## 工作流概述
这个n8n工作流能够自动从学术数据库和期刊网站抓取研究论文,并将整理好的数据保存到Google Sheets中。它通过Bright Data代理服务访问学术资源,提取包括标题、作者、摘要和PDF链接等关键信息。
## 工作流程详解
### 第一阶段:用户输入与触发
– **Start Scraping (Manual Trigger)**:手动触发节点,启动整个工作流
– **Set Research topic**:设置研究主题节点,用户可以输入如”机器学习”或”数字营销”等关键词,无需处理复杂的URL
### 第二阶段:数据抓取与解析
– **Send Request to Bright Data API**:向Bright Data API发送请求,使用用户设置的主题自动生成搜索URL
– **Extract Data from HTML (Title, Author, etc.)**:从返回的HTML内容中提取标题、作者、摘要和PDF链接等信息
– **Clean & Structure Extracted Data**:自定义代码节点,清理和格式化抓取的数据,去除标签和多余字符
### 第三阶段:数据存储
– **Save Results to Google Sheet**:将整理好的数据追加到连接的Google Sheets文档中,每个结果包含主题、标题、作者、摘要和PDF链接等字段
## 技术特点
– **无代码操作**:用户只需输入主题关键词,无需编写任何代码
– **代理保护**:使用Bright Data代理服务确保抓取过程的安全性和稳定性
– **自动格式化**:内置数据清理功能,将原始HTML转换为结构化数据
– **实时更新**:每次执行都会将新数据追加到Google Sheets中
## 应用场景
– 学术研究人员:跟踪领域内最新论文发表
– 学生群体:为文献综述和学位论文收集资料
– 研究团队:协作建立文献数据库
– 任何需要定期收集学术资料的用户
## 配置要求
1. 导入工作流JSON文件到n8n实例
2. 配置Bright Data凭据
3. 连接Google账户认证
4. 自定义要跟踪的研究主题、期刊或作者

评论(0)