使用n8n构建AI驱动的Web数据管道:Scrapeless与Claude集成工作流
n8n工作流,AI数据管道,网页抓取,向量数据库,Claude AI,Scrapeless,Qdrant,Ollama

这个n8n工作流构建了一个AI驱动的Web数据管道,自动化整个数据处理过程:提取、结构化、向量化和存储。它集成了多个先进工具,将杂乱的网页转换为干净、可搜索的向量数据库。

**集成工具**

**Scrapeless**
绕过JavaScript密集型网站和反爬虫保护,可靠地提取HTML内容。

**Claude AI**
使用LLM分析非结构化HTML并生成干净的结构化JSON数据。

**Ollama Embeddings**
使用all-minilm模型从结构化文本生成本地向量嵌入。

**Qdrant Vector DB**
存储语义向量数据,实现快速且有意义的搜索功能。

**Webhook通知**
在工作流完成或发生错误时发送实时更新。

从杂乱的网页到结构化的向量数据——这个管道非常适合构建智能代理、知识库或研究自动化工具。

**设置步骤**
1. 安装n8n
需要Node.js v18 / v20 / v22
npm install -g n8n
n8n
安装后,通过以下方式访问n8n界面:
URL: http://localhost:5678

2. 设置Scrapeless
在Scrapeless注册
复制您的API令牌
将令牌粘贴到标记为”Scrapeless Web Request”的HTTP Request节点中

3. 设置Claude API (Anthropic)
在Anthropic控制台注册
生成您的Claude API密钥
将API密钥添加到以下节点:
Claude Extractor
AI Data Checker
Claude AI Agent

4. 安装并运行Ollama
macOS
brew install ollama
Linux
curl -fsSL https://ollama.com/install.sh | sh
Windows
从https://ollama.com下载安装程序
启动Ollama服务器
ollama serve
拉取嵌入模型
ollama pull all-minilm

5. 安装Qdrant (通过Docker)
docker pull qdrant/qdrant
docker run -d \
–name qdrant-server \
-p 6333:6333 -p 6334:6334 \
-v $(pwd)/qdrant_storage:/qdrant/storage \
qdrant/qdrant
测试Qdrant是否运行:
curl http://localhost:6333/healthz

6. 配置n8n工作流
修改触发器(手动或计划)
在指定节点中输入目标URL和集合名称
将所有必需的API令牌/密钥粘贴到相应的节点中
确保您的Qdrant和Ollama服务正在运行

**理想用例**
自定义AI聊天机器人
私有搜索引擎
研究工具
内部知识库
内容监控管道

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。