
## 免责声明
此模板仅适用于自托管的n8n实例。
## 工作流概述
此工作流专为开发人员、数据分析师和自动化爱好者设计,用于自动化评估答案正确性。它巧妙结合n8n和OpenAI(如GPT-4o-mini)来计算工作流评估指标:**输出是否与预期输出具有相同含义**。
## 工作原理
该工作流从Google Sheets数据集中读取关于历史事件原因的问题,并将其与数据集中的参考答案进行比较。通过AI代理和OpenAI模型,系统能够智能评估答案的语义相似度和事实准确性。
## 适用人群
– 需要评估AI模型输出质量的开发者和研究人员
– 构建自动化评估系统的数据科学家
– 任何自托管n8n并希望结合高级LLM进行质量评估的用户
## 设置步骤
**设置时间:** 约15-30分钟(n8n安装、API配置、节点设置)
**要求:**
– 自托管n8n实例
– OpenAI API密钥
– Google Sheets OAuth2凭据
**配置节点:**
1. **Evaluation Trigger:** 从Google Sheets数据集获取问题
2. **Set:** 将问题格式化为聊天输入
3. **AI Agent:** 连接到OpenAI并生成答案
4. **OpenAI Chat Model:** 通过OpenAI凭据连接
5. **Evaluation:** 检查是否处于评估模式
6. **OpenAI:** 计算正确性指标
7. **Evaluation:** 设置评估指标
8. **No Operation:** 返回聊天响应
## 自定义指南
– **提示调整:** 优化AI代理的系统消息以控制回答长度和风格
– **数据集配置:** 替换Google Sheets链接以使用自定义问题集
– **评估标准:** 修改正确性评分标准以适应特定需求
– **运行频率:** 根据需要设置评估计划
一旦配置完成,此工作流将自动评估AI生成的答案与参考答案的相似度,无需手动干预!

评论(0)