
这个n8n工作流演示了如何使用Gemini 1.5 Pro(一种可以接受和分析图像的多模态LLM)自动化图像标注任务。这是一个非常简单的例子,展示了如何在重复性任务中轻松构建和利用强大的AI模型。
工作原理
对于这个演示,我们将使用HTTP请求节点从流行的股票摄影网站Pexel.com导入公共图像到我们的工作流中。
使用多模态LLM时,除了确保图像尺寸符合LLM接受的限制外,几乎不需要进行预处理。虽然不是必需的,但我们将使用编辑图像节点调整图像大小以实现快速处理。
通过定义”用户消息”条目与二进制(数据)类型,将图像用作基本LLM节点的输入。
LLM节点附加了Gemini 1.5 Pro语言模型,我们将提示它为看到的图像生成适当的标题标题和文本。
生成后,生成的标题文本将定位在原始图像上以完成任务。我们可以使用代码节点根据生成的字符数量计算相对定位。
组合图像和标题的示例可以在这里找到:https://res.cloudinary.com/daglih2g8/image/upload/f_auto,q_auto/v1/n8n-workflows/l5xbb4ze4wyxwwefqmnc
要求
Google Gemini API密钥。
访问Google Drive。
自定义工作流
不使用Google Gemini?n8n的基本LLM节点支持支持图像内容的标准语法模型 – 尝试使用GPT4o、Claude或LLava(通过Ollama)。
Google Drive仅用于演示目的。可以自由替换为其他触发器,如webhook,以适应您的用例。

评论(0)