
## 工作流概述
这个n8n工作流实现了网站内容的自动化抓取、处理和向量化存储功能。通过智能调度和数据处理,能够高效地将网站内容转换为向量嵌入并存储在Supabase数据库中。
## 工作原理
### 1. 网站URL收集
– **HTTP Request节点**:获取网站的sitemap.xml文件
– **XML节点**:解析XML结构提取URL列表
– **Split Out节点**:将URL列表拆分为单个项目
### 2. URL去重与存储
– **Format the URL节点**:标准化URL格式
– **Supabase节点**:检查URL是否已存在于scrape_queue表中
– **If节点**:根据检查结果决定是否插入新记录
– **Supabase插入节点**:将新URL添加到队列
### 3. 内容抓取处理
– **Loop Over Items节点**:批量处理待抓取URL
– **Crawl4AI Web Page Scrape节点**:使用Crawl4AI服务抓取网页内容
– **Wait节点**:设置抓取等待时间
– **Crawl4AI Task Status节点**:监控抓取任务状态
### 4. 内容清洗与质量过滤
– **Remove redundant data节点**:清理HTML代码,移除冗余标记
– **Quality Filter Node**:基于质量评分过滤内容
– **Content Type Detection**:自动检测内容类型(文章、教程、FAQ等)
– **Better Metadata Extraction**:提取增强的元数据信息
### 5. 向量化与存储
– **Character Text Splitter**:将文本分割为适合嵌入的块
– **Default Data Loader**:准备文档数据
– **Embeddings OpenAI**:使用OpenAI的text-embedding-ada-002模型生成向量嵌入
– **Supabase Vector Store**:将向量化文档存储到Supabase的documents表中
### 6. 状态管理
– **Edit Fields节点**:管理任务ID字段
– **Task_id Counter**:跟踪任务尝试次数
– **Supabase更新节点**:更新抓取队列的状态(pending、completed、error)
## 技术特点
– **智能调度**:自动处理未完成的URL,避免重复抓取
– **质量保证**:多层级内容质量过滤机制
– **错误处理**:完善的错误重试和状态管理
– **向量化存储**:支持语义搜索和AI应用
– **可扩展性**:模块化设计便于功能扩展
## 应用场景
– 企业知识库构建
– 内容搜索引擎开发
– AI聊天机器人训练数据准备
– 网站内容归档与分析
– 智能文档管理系统

评论(0)