泰文文档OCR自动化处理n8n工作流 - Typhoon OCR与Google Sheets集成
n8n工作流,Typhoon OCR,泰文文档处理,Google Sheets,AI文本结构化,自动化文档处理,PDF文本提取,LLM智能分析

## 泰文OCR转表格自动化工作流

这是一个专门用于处理泰文官方文档的n8n自动化工作流,能够将PDF格式的泰文文档自动转换为结构化数据并保存到Google表格中。

### 工作流概述

该工作流专为处理泰文官方文档设计,通过集成Typhoon OCR技术、大型语言模型(LLM)和Google Sheets,实现文档的自动化数字化处理。

### 核心功能模块

**1. 文档加载与OCR处理**
– 使用ReadWriteFile节点从doc文件夹加载PDF文档
– 通过ExecuteCommand节点调用Typhoon OCR API提取泰文文本内容

**2. AI智能结构化**
– 利用OpenRouter Chat Model节点(LLaMA3.1-Typhoon2-70B模型)分析OCR提取的文本
– 自动识别并结构化关键信息:
– 书号(book_id)
– 日期(date)
– 主题(subject)
– 收件人(to)
– 附件(attach)
– 详细内容(detail)
– 签署人信息(signed_by, signed_by2)
– 联系方式(电话、邮箱、传真)
– 下载链接(download_url)

**3. 数据格式转换与存储**
– 使用Code节点清理和转换JSON数据格式
– 通过Google Sheets节点将结构化数据自动保存到电子表格

### 技术特点

– **多语言支持**:专门针对泰文文档优化
– **智能解析**:LLM模型准确识别文档结构
– **自动化流程**:从文档加载到数据存储全自动完成
– **数据标准化**:输出统一的JSON格式便于后续处理

### 应用场景

该工作流特别适用于:
– 政府机构文档数字化管理
– 企业官方文件自动化处理
– 泰文文档归档与检索系统
– 多语言文档处理流水线

### 注意事项

– 需要在自托管的n8n环境中运行
– 需配置Typhoon OCR API密钥
– 支持Google Sheets等多种数据存储方式

该工作流由Ranjan Dailata开发,最近更新于5个月前,为泰文文档处理提供了高效的自动化解决方案。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。