使用AI视觉模型自动验证护照照片合规性 - n8n工作流教程
AI图像验证,护照照片标准,Gemini 1.5 Pro,n8n工作流,多模态AI,图像处理自动化

这个 n8n 工作流展示了如何使用多模态 LLM 与 AI 视觉技术来处理棘手的图像验证任务,这些任务几乎无法通过代码实现,并且在大规模情况下由人工完成通常不切实际。

当用户提交照片或需要图像满足特定标准才能被接受时,您可能需要图像验证。例如,葡萄酒评论网站可能要求用户仅提交带有标签的葡萄酒照片,银行可能要求账户持有人提交扫描文件进行验证等。

在这个演示中,我们的场景是分析一组肖像照片,以验证它们是否符合英国政府网站(https://www.gov.uk/photos-for-passports)的有效护照照片标准。

工作原理
我们的肖像集是使用 Google Drive 节点从 Google Drive 下载的 jpg 文件。
使用 Edit Image 节点调整每个图像的大小,以确保分辨率和处理速度之间的平衡。
使用 Basic LLM 节点,我们将定义一个类型为二进制(数据)的”用户消息”选项。这将允许我们将肖像作为输入传递给 LLM。
通过包含从护照照片要求网页提取的标准的提示,LLM 能够验证照片是否符合其标准。
使用结构化输出解析器将 LLM 的响应结构化为具有”is_valid”布尔属性的 JSON 对象。这对于进一步扩展工作流很有用。
要求
Google Gemini API 密钥
Google Drive 账户
自定义此工作流

不使用 Gemini?n8n 的 LLM 节点适用于任何兼容的多模态 LLM,因此可以随意将 Gemini 替换为 OpenAI 的 GPT4o 或 Anthropic 的 Claude Sonnet。

不需要验证肖像?尝试其他用例,例如文档分类、安全录像分析、照片中的人员标记等。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。