
## 工作流概述
这是一个智能网站咨询聊天机器人工作流,结合了AI技术和Google Sheets数据存储。当用户首次输入URL时,工作流会自动发现网站地图、爬取网站内容,并提取关键信息(语言、标题层级、内外链接、内容摘要)存储到Google Sheets中。
一旦网站数据被索引(Data schema = true),聊天机器人就会切换到智能代理模式,能够像网站本身一样回答用户的问题,通过查询数据库和必要时进行实时HTTP请求来提供准确信息。
## 工作流程详解
### 1. 初始模式(首次使用URL)
当用户首次输入URL时:
– **URL验证**:使用GPT-5-nano进行智能URL验证
– **自动发现网站地图**:通过robots.txt文件自动发现
– **相关网站地图选择**:使用GPT-4o根据配置选项选择要处理的URL类型(页面、文章、分类或标签)
– **页面爬取**:
– 下载每个页面的HTML
– 将HTML转换为Markdown格式
– AI分析提取:
– 检测语言
– 标题层级(H1、H2等)
– 内部和外部链接
– 内容摘要
– **结构化存储**:在Google Sheets中存储:
– 语言
– H1和标题层级
– 外部URL
– 内部URL
– 内容摘要
– 数据模式标志
完成后,表格标记为Data schema = true,表示网站已索引。
### 2. 代理模式(后续查询)
如果URL已被索引(Data schema = true):
聊天机器人变为LangChain代理,能够:
– 读取Google Sheets中的数据库
– 需要时执行实时HTTP请求获取更新信息
– 使用存储和实时数据,像网站本身一样回答问题
用户可提问:
– “联系页面有什么内容?”
– “首页有多少外部链接?”
– “给我服务页面的所有H1标题”
– “为我的页面建议什么CTA?”
– “如何扩展X内容?”
## 技术节点组成
### 核心AI节点
– **AI Agent**:LangChain代理,负责智能对话和数据处理
– **OpenAI Chat Model**:GPT-5-nano模型,提供AI能力
– **Message a model**:GPT-4o模型,用于网站地图选择
– **Simple Memory**:50条消息的上下文窗口,支持短期聊天连续性
### 数据处理节点
– **HTTP Request**:网页请求和爬取
– **HTML to Markdown**:HTML到Markdown格式转换
– **XML**:XML到JSON转换
– **Code**:自定义JavaScript代码处理
– **SplitInBatches**:批量处理URL
### 存储与集成
– **Google Sheets**:数据存储和管理
– **Google Sheets Tool**:表格工具操作
– **Set**:字段设置和选项配置
### 流程控制
– **If**:条件分支判断
– **Chat Trigger**:聊天触发器
– **StopAndError**:错误处理和停止
– **SplitOut**:数据拆分
### 输出处理
– **Structured Output Parser**:结构化输出解析
– **Chat**:聊天响应
## 应用场景
– **构建网站内容问答聊天机器人**
– **网站全文索引和未来查询**
– **SEO工具**:列出标题、链接和内容摘要
– **网站结构快速探索助手**
– **基于网站数据生成改进建议和内容策略**
## 目标用户
该工作流专为SEO分析师、内容创作者、营销机构和开发人员设计,需要索引网站并与内容进行类似聊天机器人的交互。
⚠ 注意:如果网站包含大量页面,AI令牌消耗可能会产生高成本,特别是在初始爬取和分析阶段。

评论(0)