
这是一个用于展示n8n AI评估功能的模板工作流。
评估是一种通过运行包含不同输入的测试数据集来获得AI工作流性能可靠性的技术。通过为每个输入计算指标(分数),您可以查看工作流在哪些方面表现良好,哪些方面表现不佳。
工作原理
此模板展示了如何计算工作流评估指标:输出是否与预期输出匹配(即具有相同的含义)。
该工作流接收有关历史事件原因的问题,并将其与数据集中的参考答案进行比较。
我们使用评估触发器读取数据集
它与常规聊天触发器并行连接,因此可以从任一触发器启动工作流。更多信息
如果我们正在进行评估(即从评估触发器开始执行),我们使用AI计算正确性指标
我们将此信息作为指标传回n8n
如果我们不进行评估,我们避免计算指标以降低成本
工作流包含以下关键组件:
– 评估触发器:从Google Sheets读取测试数据集
– AI代理:使用GPT-4o-mini模型回答问题
– 正确性计算:比较AI输出与参考答案的相似度
– 指标设置:将相似度分数作为评估指标返回
该工作流特别适用于验证AI模型在历史事实问答任务中的准确性和可靠性。
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

评论(0)