
这是一个n8n工作流模板,展示了如何使用AI评估功能来验证AI工作流的可靠性。该工作流通过运行包含不同输入的测试数据集来计算评估指标,具体检查AI代理是否调用了预期的工具。
## 工作原理
此模板展示了如何计算工作流评估指标:**AI代理是否调用了特定工具**。
我们使用评估触发器读取测试数据集
它与常规触发器并行连接,以便可以从任一触发器启动工作流
我们确保AI代理输出其使用的工具列表
然后检查预期工具(来自数据集)是否在该列表中
最后将此信息作为指标传回给n8n
## 关键节点
– **AI Agent**: 核心AI代理节点,配置为返回中间步骤
– **OpenAI Chat Model**: 使用GPT-4o-mini模型
– **Calculator**: 计算器工具
– **Fetch a webpage**: HTTP请求工具
– **Evaluation Trigger**: 评估触发器,从Google Sheets读取测试数据
– **Check if tool called**: 检查是否调用了目标工具
– **Evaluation**: 设置评估指标
## 技术要点
确保在AI代理中启用”返回中间步骤”选项,以获取已执行工具的列表。测试数据集包含问题以及回答这些问题时应调用的工具列表。
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

评论(0)