
这个工作流专为在n8n中运行多智能体系统的AI开发者设计,他们需要定量评估工具使用行为。如果您正在构建自主智能体并希望验证其决策是否符合预期,这个工作流为您提供了即插即用的可观测性。
## 功能概述
该模板使用n8n内置的评估触发器和评估节点来评估AI智能体是否正确使用了所有预期工具。它支持:
– 基于数据集的智能体行为测试
– 记录实际使用的工具并与预期工具进行比较
– 分配性能指标(tool_called = true/false)
– 将输出持久化到Google Sheets进行进一步调试
## 工作流架构
工作流可以通过聊天输入或数据集行评估来触发。它通过由最佳LLM驱动的多工具智能体节点进行路由。该智能体可以访问多种工具,包括:
– Web搜索工具
– 计算器工具
– 向量搜索工具
– 摘要生成工具
工作流通过提取智能体的中间步骤(即action + observation)来验证工具使用决策,并将调用的工具与预期工具进行比较。如果工作流执行期间调用的工具匹配,则通过;否则记录为失败。评估节点负责处理此过程。
## 技术节点组成
– **触发节点**:聊天触发器和数据集评估触发器
– **智能体节点**:Search Agent智能体,配备OpenRouter聊天模型
– **工具节点**:计算器、摘要器、Web搜索、向量数据库搜索
– **评估节点**:评估触发器、评估节点、工具调用检查
– **数据存储**:Google Sheets集成
## 应用场景
这个工作流特别适合:
– AI开发者验证多智能体系统的工具调用准确性
– 构建自主智能体时的行为测试和验证
– 需要定量评估AI决策质量的场景
– 智能体工具使用模式的监控和分析

评论(0)