使用LLM作为法官评估AI模型输出的n8n工作流

## 工作流概述

这个n8n工作流实现了一个智能的AI模型评估系统，使用大型语言模型（LLM）作为法官来评估其他AI模型的输出质量。工作流通过Google Sheets管理测试用例，并行执行评估，并将结果记录到输出表格中。

## 工作原理

### 1. 获取测试用例
工作流从Google Sheets中加载测试用例列表，这些测试用例包含之前从LLM存储的结果。测试表格包含以下列：
– ID：每行的唯一标识符
– Test No.：给LLM的测试编号
– AI Platform：被测试的LLM平台
– Input：给LLM的输入提示
– Output：LLM的响应
– Reference Answer：问题的”黄金标准”答案

### 2. 执行子工作流
该节点立即运行（批量处理请求），但在移动到下一步之前等待结果。

### 3. 评估LLM输出
我们的提示词会评估LLM的输入/输出，并根据输出与参考答案的匹配程度来决定LLM是否通过测试。

我们还要求法官提供决策原因，以便后续改进评估标准。

我们在此使用OpenRouter，这样可以轻松调整我们想要使用的LLM。

输出解析器确保输出为JSON格式，使数据在下一步易于解析。

### 4. 更新结果
我们在输出表格中创建新行，包含原始数据以及法官的决策/推理。

## 设置步骤

1. 添加Google Sheets和OpenRouter的凭据（或用您喜欢的聊天模型替换OpenRouter节点）
2. 复制示例表格以填充您自己的测试数据
3. 点击Manual Trigger节点旁边的”Execute Workflow”按钮运行工作流

## 评估标准

法官根据以下标准评估AI助手的输出：

### 通过标准
1. **事实准确性**：输出必须准确反映参考答案中的信息
2. **查询相关性**：输出必须直接回答任务，如参考答案所述
3. **完整性**：如果输出包含不矛盾或歪曲参考答案的额外信息，这是可接受的

### 关键规则
– 如果输出在任何一个要求上与参考答案存在实质性差异，则评为失败
– 轻微的措辞或风格差异是可接受的，只要实质含义相同

## 技术特点

– 使用并行处理提高评估效率
– 结构化JSON输出便于数据解析
– 灵活的LLM选择机制
– 完整的错误处理和重试机制

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

使用LLM作为法官评估AI模型输出的n8n工作流

评论(0)

提示：请文明发言取消回复

近期文章

近期评论

使用LLM作为法官评估AI模型输出的n8n工作流

评论(0)

提示：请文明发言 取消回复

相关文章

AI驱动的Perplexity研究助手工作流

使用GPT-4自动生成试卷并通过电子邮件发送

自动邮件退订处理器：Outlook与BigQuery集成工作流

向患者发送自动化用药提醒

近期文章

近期评论

提示：请文明发言取消回复