
## 工作流概述
这个n8n工作流将您的Telegram机器人转变为一个强大的OCR(光学字符识别)工具。当您向机器人发送任何图像(如截图、文档照片或标志图片)时,它会立即提取图像中的文本并将其发送回给您。
## 工作原理
该工作流执行以下高级步骤:
1. **触发机制**:当向Telegram机器人发送新图像时触发
2. **图像分析**:将图像发送到Google Gemini Vision API进行分析
3. **文本提取**:提取图像中找到的文本
4. **结果返回**:将提取的文本作为消息发送回Telegram
## 技术节点详解
### 核心节点组成
– **Telegram Trigger**:监听Telegram消息,特别是图片消息
– **Clean Input Data**:清理输入数据,提取聊天ID和图片文件ID
– **Telegram (get file)**:获取Telegram图片文件
– **Extract from File**:从文件中提取二进制数据
– **HTTP Request (Gemini OCR)**:调用Google Gemini API进行OCR识别
– **Telegram (send message)**:将识别结果发送回用户
### 配置要点
#### Gemini OCR设置
– **API端点**:`https://generativelanguage.googleapis.com/v1beta/models/gemini-2.0-flash:generateContent`
– **认证方式**:Query Auth,使用Google AI Studio获取的API密钥
– **请求体**:包含图像数据和提取文本指令的JSON结构
## 设置步骤
**预计设置时间**:少于5分钟
设置过程简单直接,只需要配置两个凭据:
1. **Telegram机器人凭据**:连接您的机器人
2. **Google Gemini API凭据**:使用OCR功能,可以从Google AI Studio获取免费API密钥
## 应用场景
– 快速数字化笔记
– 保存重要文本片段
– 避免手动输入
– 文档扫描和识别
– 图像中的文字提取
## 技术优势
– 基于Google先进的Gemini AI技术
– 实时处理和响应
– 支持多种图像格式
– 自动化程度高,无需人工干预

评论(0)