RAG文档基础性评估n8n工作流 - 比特币白皮书AI质量检测
RAG评估,文档基础性,n8n工作流,AI质量检测,向量存储,OpenAI,比特币白皮书,自动化评估

这个n8n工作流模板演示了如何计算评估指标”RAG文档基础性”,该指标用于衡量AI模型仅基于检索到的向量存储文档提供或引用信息的能力。

## 工作流概述

该评估最适合需要从向量存储或类似来源检索文档的AI代理。通过收集AI代理的响应和检索到的文档,使用LLM评估前者是否基于后者生成。关键因素是检查响应中是否存在文档中未提及的信息。高分表示LLM的遵循性和一致性,而低分可能表明提示不足或模型幻觉。

## 核心组件

### 1. 向量存储准备
– 使用比特币白皮书作为文档源
– 通过HTTP Request节点获取比特币白皮书PDF
– 使用Simple Vector Store节点创建内存向量存储
– 通过Embeddings OpenAI节点生成文档嵌入

### 2. AI代理设置
– 配置AI Agent作为有用的参考助手
– 使用OpenAI Chat Model (GPT-4o-mini)作为语言模型
– 设置向量存储作为检索工具
– 通过Chat Trigger接收用户输入

### 3. 评估流程
– 使用Evaluation Trigger从Google Sheets获取测试数据集
– 通过Evaluation节点检查是否正在进行评估
– 获取AI响应和检索到的文档
– 使用Document Grounding链进行基础性评估

### 4. 评分机制
– 使用OpenAI Chat Model1 (GPT-4.1-mini)进行评分
– 通过Structured Output Parser标准化输出格式
– 评分标准:1分(完全基于文档)或0分(不完全基于文档)
– 将结果输出到Google Sheets并设置指标

## 技术要求
– n8n版本1.94+
– OpenAI API密钥
– Google Sheets集成
– 比特币白皮书作为测试文档源

## 应用场景
该工作流适用于需要验证AI响应是否严格基于提供文档的场景,特别是在金融、法律、技术文档等需要高准确性的领域。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。