
这个 n8n 工作流是一个概念验证模板,探索如何使用多模态 LLM 及其多图像分析能力。在这个演示中,我们比较在不同时间戳拍摄的网页的两个屏幕截图,并将两者传递给我们的多模态 LLM 进行视觉差异比较。在 AI 请求中处理多个二进制输入(即图像)由 n8n 的基本 LLM 节点支持。
工作原理
此模板旨在作为两个部分运行:首先生成基础屏幕截图,然后运行捕获新屏幕截图的视觉回归测试。
从 Google 表格中捕获的网页列表开始,使用名为 Apify.com 的外部网页抓取服务为每个网页捕获基础屏幕截图(我更喜欢 Apify,但请随意使用您可用的任何网页抓取服务)
这些基础屏幕截图上传到 Google Drive,并在我们运行测试时稍后引用。
工作流的第 2 阶段,我们将使用计划触发器在将来某个时间触发,该触发器将重用我们的网页抓取服务来生成所需网页的新屏幕截图。
接下来,并行重新下载我们的基础屏幕截图,并使用旧的和新的捕获,我们将这些传递给我们的 LLM 节点。在 LLM 节点的选项中,我们将定义 2 个类型为二进制(数据)的”用户消息”输入,用于我们的图像。
最后,我们将使用我们的测试标准提示我们的 LLM 并捕获检测到的回归。注意,结果将根据您使用的 LLM 而有所不同。
可以使用 LLM 的输出生成最终报告,并上传到 Linear。
要求
Apify.com API 密钥用于网页截图服务
Google Drive 和 Sheets 访问权限以存储网页列表和捕获
自定义此工作流
有您自己偏好的网页截图服务吗?请随意将 Apify 换成您选择的服务。
如果网页截图太大,LLM 可能难以精确发现差异。尝试将捕获拆分成更小的图像。

评论(0)