
这个n8n工作流构建了一个AI驱动的Web数据管道,自动化整个数据处理过程:提取、结构化、向量化和存储。它集成了多个先进工具,将杂乱的网页转换为干净、可搜索的向量数据库。
**集成工具**
**Scrapeless**
绕过JavaScript密集型网站和反爬虫保护,可靠地提取HTML内容。
**Claude AI**
使用LLM分析非结构化HTML并生成干净的结构化JSON数据。
**Ollama Embeddings**
使用all-minilm模型从结构化文本生成本地向量嵌入。
**Qdrant Vector DB**
存储语义向量数据,实现快速且有意义的搜索功能。
**Webhook通知**
在工作流完成或发生错误时发送实时更新。
从杂乱的网页到结构化的向量数据——这个管道非常适合构建智能代理、知识库或研究自动化工具。
**设置步骤**
1. 安装n8n
需要Node.js v18 / v20 / v22
npm install -g n8n
n8n
安装后,通过以下方式访问n8n界面:
URL: http://localhost:5678
2. 设置Scrapeless
在Scrapeless注册
复制您的API令牌
将令牌粘贴到标记为”Scrapeless Web Request”的HTTP Request节点中
3. 设置Claude API (Anthropic)
在Anthropic控制台注册
生成您的Claude API密钥
将API密钥添加到以下节点:
Claude Extractor
AI Data Checker
Claude AI Agent
4. 安装并运行Ollama
macOS
brew install ollama
Linux
curl -fsSL https://ollama.com/install.sh | sh
Windows
从https://ollama.com下载安装程序
启动Ollama服务器
ollama serve
拉取嵌入模型
ollama pull all-minilm
5. 安装Qdrant (通过Docker)
docker pull qdrant/qdrant
docker run -d \
–name qdrant-server \
-p 6333:6333 -p 6334:6334 \
-v $(pwd)/qdrant_storage:/qdrant/storage \
qdrant/qdrant
测试Qdrant是否运行:
curl http://localhost:6333/healthz
6. 配置n8n工作流
修改触发器(手动或计划)
在指定节点中输入目标URL和集合名称
将所有必需的API令牌/密钥粘贴到相应的节点中
确保您的Qdrant和Ollama服务正在运行
**理想用例**
自定义AI聊天机器人
私有搜索引擎
研究工具
内部知识库
内容监控管道

评论(0)