使用LLM作为法官评估AI模型输出的n8n工作流 | AI质量评估系统
n8n工作流,LLM评估,AI质量检测,Google Sheets集成,OpenRouter,自动化测试,AI模型评估,数据处理

## 工作流概述

这个n8n工作流实现了一个智能的AI模型评估系统,使用大型语言模型(LLM)作为法官来评估其他AI模型的输出质量。工作流通过Google Sheets管理测试用例,并行执行评估,并将结果记录到输出表格中。

## 工作原理

### 1. 获取测试用例
工作流从Google Sheets中加载测试用例列表,这些测试用例包含之前从LLM存储的结果。测试表格包含以下列:
– ID:每行的唯一标识符
– Test No.:给LLM的测试编号
– AI Platform:被测试的LLM平台
– Input:给LLM的输入提示
– Output:LLM的响应
– Reference Answer:问题的”黄金标准”答案

### 2. 执行子工作流
该节点立即运行(批量处理请求),但在移动到下一步之前等待结果。

### 3. 评估LLM输出
我们的提示词会评估LLM的输入/输出,并根据输出与参考答案的匹配程度来决定LLM是否通过测试。

我们还要求法官提供决策原因,以便后续改进评估标准。

我们在此使用OpenRouter,这样可以轻松调整我们想要使用的LLM。

输出解析器确保输出为JSON格式,使数据在下一步易于解析。

### 4. 更新结果
我们在输出表格中创建新行,包含原始数据以及法官的决策/推理。

## 设置步骤

1. 添加Google Sheets和OpenRouter的凭据(或用您喜欢的聊天模型替换OpenRouter节点)
2. 复制示例表格以填充您自己的测试数据
3. 点击Manual Trigger节点旁边的”Execute Workflow”按钮运行工作流

## 评估标准

法官根据以下标准评估AI助手的输出:

### 通过标准
1. **事实准确性**:输出必须准确反映参考答案中的信息
2. **查询相关性**:输出必须直接回答任务,如参考答案所述
3. **完整性**:如果输出包含不矛盾或歪曲参考答案的额外信息,这是可接受的

### 关键规则
– 如果输出在任何一个要求上与参考答案存在实质性差异,则评为失败
– 轻微的措辞或风格差异是可接受的,只要实质含义相同

## 技术特点

– 使用并行处理提高评估效率
– 结构化JSON输出便于数据解析
– 灵活的LLM选择机制
– 完整的错误处理和重试机制

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。