
## 概述
这个n8n工作流模板展示了如何计算评估指标”摘要质量”,在该场景中,该指标衡量LLM基于传入的YouTube转录生成摘要的准确性和忠实度。
## 工作原理
该评估最适合AI摘要工作流。在我们的评分中,我们简单地将生成的响应与原始转录进行比较。一个关键因素是查找响应中未在文档中提及的信息。高分表示LLM的遵守和对齐程度,而低分可能表示提示不足或模型幻觉。
## 技术架构
### 数据输入流程
1. **Webhook节点**:接收包含Google Drive URL的输入数据
2. **Set节点**:提取Google Drive文件URL
3. **Google Drive节点**:下载YouTube转录文件
4. **Extract from File节点**:从文件中提取文本内容
### AI摘要生成
– **OpenAI Chat Model节点**:使用GPT-4.1-mini模型
– **Chain LLM节点**:执行摘要任务,生成视频的5个亮点摘要
### 质量评估流程
1. **Evaluation Trigger节点**:从Google Sheets获取评估数据集
2. **Chain LLM节点**:执行摘要质量评估
3. **Google Gemini节点**:作为评估模型
4. **Output Parser节点**:解析结构化评估结果
5. **Evaluation节点**:设置输出指标和分数
## 评估标准
基于Google Vertex AI的摘要质量评估模板,主要考察:
– **指令遵循**:响应是否清晰理解摘要任务指令
– **基础性**:响应是否仅包含上下文中的信息
– **简洁性**:响应是否在不过度冗长或简洁的情况下总结相关细节
– **流畅性**:响应是否组织良好且易于阅读
## 评分标准
– 5分(非常好):摘要遵循指令、基础、简洁且流畅
– 4分(好):摘要遵循指令、基础、简洁且流畅
– 3分(一般):摘要基本遵循指令、基础,但不很简洁且不流畅
– 2分(差):摘要基础但不遵循指令
– 1分(非常差):摘要不基础
## 技术需求
– n8n版本:1.94+
– 示例数据:Google Sheets数据集
– AI模型:OpenAI GPT-4.1-mini和Google Gemini-2.0-flash
## 应用场景
该工作流适用于需要评估AI模型摘要能力的场景,特别是在处理视频转录、文档摘要等内容的自动化工作流中,确保AI生成的摘要准确、忠实于源材料。

评论(0)