
## 泰文OCR转表格自动化工作流
这是一个专门用于处理泰文官方文档的n8n自动化工作流,能够将PDF格式的泰文文档自动转换为结构化数据并保存到Google表格中。
### 工作流概述
该工作流专为处理泰文官方文档设计,通过集成Typhoon OCR技术、大型语言模型(LLM)和Google Sheets,实现文档的自动化数字化处理。
### 核心功能模块
**1. 文档加载与OCR处理**
– 使用ReadWriteFile节点从doc文件夹加载PDF文档
– 通过ExecuteCommand节点调用Typhoon OCR API提取泰文文本内容
**2. AI智能结构化**
– 利用OpenRouter Chat Model节点(LLaMA3.1-Typhoon2-70B模型)分析OCR提取的文本
– 自动识别并结构化关键信息:
– 书号(book_id)
– 日期(date)
– 主题(subject)
– 收件人(to)
– 附件(attach)
– 详细内容(detail)
– 签署人信息(signed_by, signed_by2)
– 联系方式(电话、邮箱、传真)
– 下载链接(download_url)
**3. 数据格式转换与存储**
– 使用Code节点清理和转换JSON数据格式
– 通过Google Sheets节点将结构化数据自动保存到电子表格
### 技术特点
– **多语言支持**:专门针对泰文文档优化
– **智能解析**:LLM模型准确识别文档结构
– **自动化流程**:从文档加载到数据存储全自动完成
– **数据标准化**:输出统一的JSON格式便于后续处理
### 应用场景
该工作流特别适用于:
– 政府机构文档数字化管理
– 企业官方文件自动化处理
– 泰文文档归档与检索系统
– 多语言文档处理流水线
### 注意事项
– 需要在自托管的n8n环境中运行
– 需配置Typhoon OCR API密钥
– 支持Google Sheets等多种数据存储方式
该工作流由Ranjan Dailata开发,最近更新于5个月前,为泰文文档处理提供了高效的自动化解决方案。

评论(0)