n8n工作流评估AI代理回答相关性 - RAGAS评分系统与OpenAI集成
n8n工作流,AI评估,RAGAS,相关性评分,OpenAI,问答系统,自动化测试,余弦相似度

## 工作流概述

这个n8n模板演示了如何计算评估指标”Relevance”(相关性),该指标用于衡量AI代理对用户问题的回答相关性。

## 技术原理

该评分方法基于开源评估项目RAGAS进行适配,源代码参考:https://github.com/explodinggradients/ragas/blob/main/ragas/src/ragas/metrics/_answer_relevance.py

### 工作原理
– 该评估最适合问答型AI代理
– 通过分析代理的回答,让另一个AI从中生成一个问题
– 将生成的问题与原始问题使用余弦相似度进行比较
– 高分表示相关性高,代理成功回答问题
– 低分表示代理可能添加了过多无关信息、偏离主题或产生幻觉

## 工作流节点架构

### 数据输入层
– **When fetching a dataset row**:从Google Sheets获取测试数据集
– **Remap Input**:重新映射输入数据格式

### AI代理处理层
– **AI Agent**:主要的AI代理节点
– **OpenAI Chat Model1**:GPT-4.1-mini模型用于代理回答
– **When chat message received**:聊天消息接收触发器

### 评估计算层
– **Evaluation**:评估检查节点
– **Set Input Fields**:设置评估输入字段
– **Answer Relevance**:回答相关性计算链
– **OpenAI Chat Model**:GPT-4.1-mini模型用于问题生成
– **Structured Output Parser**:结构化输出解析器

### 相似度计算层
– **Questions to Items**:问题数据转换
– **Get Embeddings**:获取文本嵌入向量
– **Calculate Similarity Score**:计算余弦相似度
– **Calculate Relevance Score**:计算最终相关性分数

### 结果输出层
– **Update Output**:更新Google Sheets输出
– **Update Metrics**:更新评估指标
– **No Operation, do nothing**:空操作节点

## 技术要求
– n8n版本:1.94+
– 示例数据:https://docs.google.com/spreadsheets/d/1YOnu2JJjlxd787AuYcg-wKbkjyjyZFgASYVV0jsij5Y/edit?usp=sharing

## 应用场景
该工作流特别适用于:
– AI聊天机器人的质量评估
– 问答系统的性能监控
– 代理回答准确性的自动化测试
– 大规模AI模型评估流程

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。