
## 工作流概述
这个n8n模板演示了如何计算评估指标”Relevance”(相关性),该指标用于衡量AI代理对用户问题的回答相关性。
## 技术原理
该评分方法基于开源评估项目RAGAS进行适配,源代码参考:https://github.com/explodinggradients/ragas/blob/main/ragas/src/ragas/metrics/_answer_relevance.py
### 工作原理
– 该评估最适合问答型AI代理
– 通过分析代理的回答,让另一个AI从中生成一个问题
– 将生成的问题与原始问题使用余弦相似度进行比较
– 高分表示相关性高,代理成功回答问题
– 低分表示代理可能添加了过多无关信息、偏离主题或产生幻觉
## 工作流节点架构
### 数据输入层
– **When fetching a dataset row**:从Google Sheets获取测试数据集
– **Remap Input**:重新映射输入数据格式
### AI代理处理层
– **AI Agent**:主要的AI代理节点
– **OpenAI Chat Model1**:GPT-4.1-mini模型用于代理回答
– **When chat message received**:聊天消息接收触发器
### 评估计算层
– **Evaluation**:评估检查节点
– **Set Input Fields**:设置评估输入字段
– **Answer Relevance**:回答相关性计算链
– **OpenAI Chat Model**:GPT-4.1-mini模型用于问题生成
– **Structured Output Parser**:结构化输出解析器
### 相似度计算层
– **Questions to Items**:问题数据转换
– **Get Embeddings**:获取文本嵌入向量
– **Calculate Similarity Score**:计算余弦相似度
– **Calculate Relevance Score**:计算最终相关性分数
### 结果输出层
– **Update Output**:更新Google Sheets输出
– **Update Metrics**:更新评估指标
– **No Operation, do nothing**:空操作节点
## 技术要求
– n8n版本:1.94+
– 示例数据:https://docs.google.com/spreadsheets/d/1YOnu2JJjlxd787AuYcg-wKbkjyjyZFgASYVV0jsij5Y/edit?usp=sharing
## 应用场景
该工作流特别适用于:
– AI聊天机器人的质量评估
– 问答系统的性能监控
– 代理回答准确性的自动化测试
– 大规模AI模型评估流程

评论(0)