
## 将URL HTML转换为Markdown并获取页面链接
## 使用场景
将网页转换为AI友好的markdown格式:
– 您需要处理网页内容以进行LLM分析
– 您希望从网页中提取内容和链接
– 您需要干净、格式化的文本,无需HTML标记
– 您希望在爬取页面时尊重API速率限制
## 此工作流的功能
该工作流使用Firecrawl.dev API处理网页:
– 将HTML内容转换为markdown格式
– 从每个网页提取所有链接
– 自动处理API速率限制
– 从数据库批量处理URL
## 设置
1. 创建[Firecrawl.dev](https://www.firecrawl.dev/)账户并获取您的API密钥
2. 将您的Firecrawl API密钥添加到HTTP Request节点的Authorization标头
3. 将您的URL数据库连接到输入节点(列名必须为”Page”)或编辑`Example fields from data source`中的数组
4. 配置您首选的输出数据库连接
## 如何根据您的需求进行调整
– 修改输入源以从不同的数据库拉取URL
– 如有需要,调整速率限制参数
– 为您的特定用例自定义输出格式
更多模板和n8n工作流 >>> @simonscrapes
## 工作流节点配置
– **When clicking ‘Test workflow’** – 手动触发器
– **Get urls from own data source** – 从数据源获取URL
– **Example fields from data source** – 定义URL数组示例
– **Split out page URLs** – 拆分页面URL
– **40 items at a time** – 限制处理项目数
– **10 at a time** – 批量处理
– **Wait** – 等待节点控制速率
– **Retrieve Page Markdown and Links** – HTTP请求调用Firecrawl API
– **Markdown data and Links** – 设置输出数据格式
– **Connect to your own data source** – 连接到输出数据源
– **Sticky Note** 节点提供配置说明和注意事项

评论(0)