网站邮箱地址自动抓取工具 - n8n工作流 Firecrawl API 数据提取
邮箱抓取,网站数据提取,n8n工作流,Firecrawl API,自动化营销,数据收集,销售线索,邮箱验证

## 工作流概述

这个n8n工作流是一个智能网站邮箱地址抓取工具,专门为销售专业人员、营销人员和业务开发人员设计。通过自动化流程从公司网站快速收集联系信息,大大节省手动查找邮箱的时间。

## 主要功能

### 自动化邮箱提取
– 通过简单表单输入网站URL
– 使用Firecrawl的映射API查找相关页面(关于、联系、团队页面)
– 批量抓取这些页面提取邮箱地址
– 智能处理常见的邮箱混淆技术,如”(at)”和”(dot)”
– 返回干净、去重后的有效邮箱地址列表

### 技术特点
– 处理速率限制和重试失败请求
– 过滤无效或隐藏的邮箱地址
– 确保获取高质量结果
– 生产就绪,可定期使用

## 设置步骤

### 1. 获取Firecrawl API访问权限
– 在firecrawl.dev注册并获取API密钥

### 2. 配置凭证
– 在n8n中创建新的HTTP Header Auth凭证,命名为”Firecrawl”
– 设置:Header Name: Authorization, Header Value: Bearer YOUR_API_KEY

### 3. 导入工作流
– 将工作流JSON复制到n8n实例中

### 4. 测试表单
– 激活工作流并使用示例网站URL进行测试

## 工作流节点详解

### 核心节点
– **form_trigger**: 表单触发器,接收网站URL输入
– **map_website**: HTTP请求节点,使用Firecrawl映射API查找相关页面
– **start_batch_scrape**: 批量抓取启动节点,配置抓取参数
– **fetch_scrape_results**: 获取抓取结果
– **set_result**: 设置最终结果格式

### 控制节点
– **check_scrape_completed**: 检查抓取是否完成
– **check_retry_count**: 检查重试次数
– **rate_limit_wait**: 速率限制等待
– **too_many_attempts_error**: 错误处理节点

## 自定义选项

### 搜索参数
– 修改map_website节点中的搜索参数,以定位不同的页面类型
– 当前搜索:”about contact company authors team”

### 提取限制
– 调整limit参数以抓取更多或更少的页面

### 重试逻辑
– 工作流包含重试逻辑,最多12次尝试
– 修改check_retry_count节点来更改此设置

### 输出格式
– set_result节点格式化最终输出
– 自定义以匹配首选的数据结构

### 邮箱验证
– start_batch_scrape中的JSON模式定义了邮箱提取方式
– 修改提示或模式以应用不同的提取规则

## 应用场景

– 构建潜在客户列表
– 研究潜在合作伙伴
– 收集外展活动的线索
– 市场调研和竞争分析

这个工作流设计可靠,能够处理常见的边缘情况,如速率限制和失败请求,使其适合定期生产使用。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。