
这个n8n工作流自动化了整个将任何网站或域名转换为干净、结构化、AI就绪的知识库的过程,适用于大型语言模型(LLMs)、语义搜索和聊天机器人开发。
## 工作流亮点
### 关键功能
– **URL输入通过简单表单** – 粘贴单个链接或完整域名
– **自动化链接发现** – 使用Firecrawl API爬取和映射所有相关页面
– **干净的Markdown提取** – 使用Parsera API进行准确、无杂乱的内容提取
– **LLM优化格式化** – 使用OpenAI GPT-4.1-mini标准化为llms.txt格式
– **云存储集成** – 直接保存到Google Drive以便即时访问
– **批量处理扩展** – 高效处理单个页面或数百个URL
### 适用场景
– AI工程师构建特定领域训练数据集
– 数据科学家运行语义搜索和向量数据库管道
– 研究人员为AI或分析收集网站档案
– 自动化专家创建聊天机器人就绪的内容库
### 为什么这个工作流优于手动流程
– **100%自动化** – 从链接输入到Google Drive就绪的.txt文件
– **灵活范围** – 选择单页提取或全站爬取
– **干净、AI友好的输出** – Markdown转换为标准化LLM格式
– **可扩展且可靠** – 处理批量数据摄取而无需格式化问题
– **云优先** – 集中存储便于团队访问
### 解决的问题
– 无需从数十个网页手动复制粘贴
– 消除跨数据集的不一致格式
– 避免文件分散 – 所有输出存储在一个中央文件夹中
### 工作流程步骤
1. **表单提交** – 输入URL并选择“单页”或“全域名爬取”
2. **URL映射与Firecrawl API** – 自动发现与起始URL相关的所有内部链接
3. **内容提取与Parsera API** – 移除广告、导航杂乱和无关元素以生成干净的Markdown
4. **LLM优化格式化与OpenAI GPT-4.1-mini** – 生成结构化文件,包括:
– 网站标题和元描述
– 带摘要和完整文本的页面部分
5. **云上传到Google Drive** – 最终的.txt或.md文件存储在指定文件夹中
### 业务与AI优势
– 节省90%+准备AI训练数据集的时间
– 通过高质量、一致的输入提高AI准确性
– 维护集中、基于云的存储
– 通过基于代理的内容收集进行全球扩展
### 10分钟内设置
1. 将工作流导入n8n
2. 添加凭据:
– Firecrawl API
– Parsera API
– OpenAI API密钥
– Google Drive(服务账户或OAuth)
3. 更新Google Drive文件夹ID
4. 使用示例URL运行测试作业
5. 部署并连接到AI管道
### 使用的工具和集成
– n8n Form Trigger – 用户友好的输入
– Firecrawl API – 全面的内部链接映射
– Parsera API – 干净、结构化的内容提取
– OpenAI GPT-4.1-mini – LLM优化格式化
– Google Drive API – 安全云存储
– Batch & Switch Logic – 高效的多页面处理
### 高级自定义选项
– 更改输出格式:.md、.json、.csv
– 交换存储到Dropbox、AWS S3、Notion、Airtable
– 修改AI提示以进行替代格式化
– 在保存前按关键词或元数据过滤
– 通过Google Sheets、电子邮件触发器或cron计划自动运行
– 添加AI驱动的翻译以支持多语言数据集
– 使用SEO元数据或作者信息进行丰富
– 直接推送到向量数据库,如Pinecone、Weaviate、Qdrant

评论(0)