将URL HTML转换为Markdown并获取页面链接

n8n工作流：网页HTML转Markdown与链接提取自动化解决方案 — n8n工作流,网页转换,Markdown提取,链接抓取,Firecrawl API,数据自动化,网页内容处理

## 将URL HTML转换为Markdown并获取页面链接

## 使用场景
将网页转换为AI友好的markdown格式：
– 您需要处理网页内容以进行LLM分析
– 您希望从网页中提取内容和链接
– 您需要干净、格式化的文本，无需HTML标记
– 您希望在爬取页面时尊重API速率限制

## 此工作流的功能
该工作流使用Firecrawl.dev API处理网页：
– 将HTML内容转换为markdown格式
– 从每个网页提取所有链接
– 自动处理API速率限制
– 从数据库批量处理URL

## 设置
1. 创建[Firecrawl.dev](https://www.firecrawl.dev/)账户并获取您的API密钥
2. 将您的Firecrawl API密钥添加到HTTP Request节点的Authorization标头
3. 将您的URL数据库连接到输入节点（列名必须为”Page”）或编辑`Example fields from data source`中的数组
4. 配置您首选的输出数据库连接

## 如何根据您的需求进行调整
– 修改输入源以从不同的数据库拉取URL
– 如有需要，调整速率限制参数
– 为您的特定用例自定义输出格式

更多模板和n8n工作流 >>> @simonscrapes

## 工作流节点配置
– **When clicking ‘Test workflow’** – 手动触发器
– **Get urls from own data source** – 从数据源获取URL
– **Example fields from data source** – 定义URL数组示例
– **Split out page URLs** – 拆分页面URL
– **40 items at a time** – 限制处理项目数
– **10 at a time** – 批量处理
– **Wait** – 等待节点控制速率
– **Retrieve Page Markdown and Links** – HTTP请求调用Firecrawl API
– **Markdown data and Links** – 设置输出数据格式
– **Connect to your own data source** – 连接到输出数据源
– **Sticky Note** 节点提供配置说明和注意事项

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

将URL HTML转换为Markdown并获取页面链接

评论(0)

提示：请文明发言取消回复

近期文章

近期评论

将URL HTML转换为Markdown并获取页面链接

评论(0)

提示：请文明发言 取消回复

相关文章

AI Agent 图表生成工作流 – 使用 OpenAI 结构化输出

基于Notion状态的通知提醒模板

LinkedIn招聘信号抓取器 — 使用Bright Data进行职位搜索和潜在客户挖掘

在Jira问题创建/更新/删除时同步到Notion数据库

近期文章

近期评论

提示：请文明发言取消回复