
这是一个用于展示n8n AI评估功能的模板工作流。评估是一种通过运行包含不同输入的测试数据集来获取AI工作流性能可靠性的技术。
## 工作原理
此模板展示了如何计算工作流评估指标:**类别是否与预期匹配**。
工作流接收支持工单并生成类别和优先级,然后与数据集中的正确答案进行比较。
我们使用评估触发器读取数据集
它与常规触发器并行连接,因此可以从任一触发器启动工作流
一旦代理生成类别,我们检查它是否与数据集中的预期类别匹配
最后,我们将此信息作为指标传递回n8n
## 工作流节点
– **Webhook**: 接收支持工单输入
– **AI Agent**: 使用OpenAI模型分析工单内容并生成分类和优先级
– **OpenAI Chat Model**: 使用gpt-4o-mini模型进行AI分析
– **Structured Output Parser**: 结构化输出解析器,确保输出格式一致
– **Evaluation Trigger**: 评估触发器,从Google Sheets读取测试数据集
– **Set Node**: 检查分类匹配情况,比较实际输出与预期结果
– **Evaluation Node**: 设置评估指标,将匹配结果作为指标传递
– **Respond to Webhook**: 响应Webhook请求
– **Sticky Note**: 提供工作流说明和文档链接
## 应用场景
该工作流适用于:
– AI工作流性能测试和验证
– 支持工单自动分类系统
– 机器学习模型评估
– 自动化质量保证流程

评论(0)