CV简历PDF解析与多模态视觉AI图像标注工作流

AI图像标注自动化工作流 - n8n多模态视觉AI解决方案 — n8n工作流,AI图像标注,多模态AI,Gemini视觉模型,自动化图像处理,智能内容生成

这个n8n工作流演示了如何使用Gemini 1.5 Pro（一种可以接受和分析图像的多模态LLM）自动化图像标注任务。这是一个非常简单的例子，展示了如何在重复性任务中轻松构建和利用强大的AI模型。

工作原理
对于这个演示，我们将使用HTTP请求节点从流行的股票摄影网站Pexel.com导入公共图像到我们的工作流中。
使用多模态LLM时，除了确保图像尺寸符合LLM接受的限制外，几乎不需要进行预处理。虽然不是必需的，但我们将使用编辑图像节点调整图像大小以实现快速处理。
通过定义”用户消息”条目与二进制（数据）类型，将图像用作基本LLM节点的输入。
LLM节点附加了Gemini 1.5 Pro语言模型，我们将提示它为看到的图像生成适当的标题标题和文本。
生成后，生成的标题文本将定位在原始图像上以完成任务。我们可以使用代码节点根据生成的字符数量计算相对定位。

组合图像和标题的示例可以在这里找到：https://res.cloudinary.com/daglih2g8/image/upload/f_auto,q_auto/v1/n8n-workflows/l5xbb4ze4wyxwwefqmnc

要求
Google Gemini API密钥。
访问Google Drive。
自定义工作流

不使用Google Gemini？n8n的基本LLM节点支持支持图像内容的标准语法模型 – 尝试使用GPT4o、Claude或LLava（通过Ollama）。

Google Drive仅用于演示目的。可以自由替换为其他触发器，如webhook，以适应您的用例。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

CV简历PDF解析与多模态视觉AI图像标注工作流

评论(0)

提示：请文明发言取消回复

近期文章

近期评论

CV简历PDF解析与多模态视觉AI图像标注工作流

评论(0)

提示：请文明发言 取消回复

相关文章

Zoho Desk工单AI自动分类系统

信用卡使用监控与UPI交易通知自动化工作流

自动化社交媒体趋势追踪与视频创意生成工作流

使用n8n和AI创建自动化图像生成工作流

近期文章

近期评论

提示：请文明发言取消回复