基于Google Sheets和AI的网站咨询与爬取聊天机器人n8n工作流
n8n工作流,AI聊天机器人,网站爬取,Google Sheets集成,OpenAI GPT,自动化SEO,数据提取,智能代理

## 工作流概述

这是一个智能网站咨询聊天机器人工作流,结合了AI技术和Google Sheets数据存储。当用户首次输入URL时,工作流会自动发现网站地图、爬取网站内容,并提取关键信息(语言、标题层级、内外链接、内容摘要)存储到Google Sheets中。

一旦网站数据被索引(Data schema = true),聊天机器人就会切换到智能代理模式,能够像网站本身一样回答用户的问题,通过查询数据库和必要时进行实时HTTP请求来提供准确信息。

## 工作流程详解

### 1. 初始模式(首次使用URL)

当用户首次输入URL时:

– **URL验证**:使用GPT-5-nano进行智能URL验证
– **自动发现网站地图**:通过robots.txt文件自动发现
– **相关网站地图选择**:使用GPT-4o根据配置选项选择要处理的URL类型(页面、文章、分类或标签)
– **页面爬取**:
– 下载每个页面的HTML
– 将HTML转换为Markdown格式
– AI分析提取:
– 检测语言
– 标题层级(H1、H2等)
– 内部和外部链接
– 内容摘要
– **结构化存储**:在Google Sheets中存储:
– 语言
– H1和标题层级
– 外部URL
– 内部URL
– 内容摘要
– 数据模式标志

完成后,表格标记为Data schema = true,表示网站已索引。

### 2. 代理模式(后续查询)

如果URL已被索引(Data schema = true):

聊天机器人变为LangChain代理,能够:
– 读取Google Sheets中的数据库
– 需要时执行实时HTTP请求获取更新信息
– 使用存储和实时数据,像网站本身一样回答问题

用户可提问:
– “联系页面有什么内容?”
– “首页有多少外部链接?”
– “给我服务页面的所有H1标题”
– “为我的页面建议什么CTA?”
– “如何扩展X内容?”

## 技术节点组成

### 核心AI节点
– **AI Agent**:LangChain代理,负责智能对话和数据处理
– **OpenAI Chat Model**:GPT-5-nano模型,提供AI能力
– **Message a model**:GPT-4o模型,用于网站地图选择
– **Simple Memory**:50条消息的上下文窗口,支持短期聊天连续性

### 数据处理节点
– **HTTP Request**:网页请求和爬取
– **HTML to Markdown**:HTML到Markdown格式转换
– **XML**:XML到JSON转换
– **Code**:自定义JavaScript代码处理
– **SplitInBatches**:批量处理URL

### 存储与集成
– **Google Sheets**:数据存储和管理
– **Google Sheets Tool**:表格工具操作
– **Set**:字段设置和选项配置

### 流程控制
– **If**:条件分支判断
– **Chat Trigger**:聊天触发器
– **StopAndError**:错误处理和停止
– **SplitOut**:数据拆分

### 输出处理
– **Structured Output Parser**:结构化输出解析
– **Chat**:聊天响应

## 应用场景

– **构建网站内容问答聊天机器人**
– **网站全文索引和未来查询**
– **SEO工具**:列出标题、链接和内容摘要
– **网站结构快速探索助手**
– **基于网站数据生成改进建议和内容策略**

## 目标用户

该工作流专为SEO分析师、内容创作者、营销机构和开发人员设计,需要索引网站并与内容进行类似聊天机器人的交互。

⚠ 注意:如果网站包含大量页面,AI令牌消耗可能会产生高成本,特别是在初始爬取和分析阶段。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。