AI图像标注自动化工作流 - n8n多模态视觉AI解决方案
n8n工作流,AI图像标注,多模态AI,Gemini视觉模型,自动化图像处理,智能内容生成

这个n8n工作流演示了如何使用Gemini 1.5 Pro(一种可以接受和分析图像的多模态LLM)自动化图像标注任务。这是一个非常简单的例子,展示了如何在重复性任务中轻松构建和利用强大的AI模型。

工作原理
对于这个演示,我们将使用HTTP请求节点从流行的股票摄影网站Pexel.com导入公共图像到我们的工作流中。
使用多模态LLM时,除了确保图像尺寸符合LLM接受的限制外,几乎不需要进行预处理。虽然不是必需的,但我们将使用编辑图像节点调整图像大小以实现快速处理。
通过定义”用户消息”条目与二进制(数据)类型,将图像用作基本LLM节点的输入。
LLM节点附加了Gemini 1.5 Pro语言模型,我们将提示它为看到的图像生成适当的标题标题和文本。
生成后,生成的标题文本将定位在原始图像上以完成任务。我们可以使用代码节点根据生成的字符数量计算相对定位。

组合图像和标题的示例可以在这里找到:https://res.cloudinary.com/daglih2g8/image/upload/f_auto,q_auto/v1/n8n-workflows/l5xbb4ze4wyxwwefqmnc

要求
Google Gemini API密钥。
访问Google Drive。
自定义工作流

不使用Google Gemini?n8n的基本LLM节点支持支持图像内容的标准语法模型 – 尝试使用GPT4o、Claude或LLava(通过Ollama)。

Google Drive仅用于演示目的。可以自由替换为其他触发器,如webhook,以适应您的用例。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。