
## 概述
这是一个功能完整的LinkedIn个人资料数据提取和丰富化工作流,专门设计用于自动从LinkedIn URL中提取详细的个人资料信息,并将其存储到NocoDB数据库中。工作流包含完整的错误处理机制,能够处理各种异常情况,包括无效URL、API错误和超时问题。
## 工作流架构
### 触发机制
– **Manual Trigger**: 手动触发工作流执行
– **Schedule Trigger**: 定时自动执行,定期检查新的LinkedIn URL
### 数据获取阶段
1. **Get Guests with LinkedIn**: 从NocoDB数据库中获取包含LinkedIn URL的客户记录
2. **Run Apify LinkedIn Scraper**: 调用Apify LinkedIn Profile Scraper API启动数据抓取任务
3. **Wait for Completion**: 等待抓取任务完成,设置超时时间为5分钟
### 状态检查与分支处理
4. **Check Run Status**: 检查抓取任务状态,根据结果路由到不同处理分支
### 成功处理分支
5. **Get Scraper Results**: 获取抓取结果数据,包含错误处理机制
6. **Transform Data**: 将原始LinkedIn数据转换为NocoDB字段格式
7. **Update Guest Success**: 将丰富化的个人资料数据更新到数据库
### 错误处理分支
– **Clear Broken LinkedIn URL**: 处理404或无效LinkedIn URL,清除无效链接
– **Update Guest – Clear URL**: 更新数据库,标记URL为无效
– **Handle Scraper Error**: 处理API错误和超时情况
– **Update Guest – Error Status**: 记录错误状态到数据库
## 技术特点
### 完整错误处理
– 处理LinkedIn个人资料不存在的情况(404错误)
– 处理API调用超时和失败
– 自动清理无效的LinkedIn URL
– 详细的错误状态记录
### 数据丰富化字段
工作流提取并存储以下LinkedIn个人资料信息:
– 基本个人信息(姓名、职位、公司)
– 联系信息(邮箱、个人网站)
– 专业信息(技能、经验、出版物)
– 媒体信息(头像、公司网站)
– 地理位置信息
### 自动化管理
– 自动状态跟踪(成功、错误、无效URL)
– 时间戳记录
– 批量处理能力(每次处理15条记录)
## 配置要求
### 必需的服务
– **NocoDB**: 用于存储客户数据和抓取结果
– **Apify LinkedIn Scraper**: 用于LinkedIn数据抓取
– **Apify API Token**: 用于认证和API调用
### 数据库字段要求
工作流需要特定的输入和输出字段结构,确保数据能够正确存储和更新。
## 应用场景
这个工作流特别适用于:
– 客户关系管理系统
– 人才招聘和人才库建设
– 销售线索丰富化
– 市场研究和分析
– 自动化数据收集和处理

评论(0)