
## 工作流概述
这个n8n工作流是一个专业的音频处理自动化系统,专门用于将音频文件转换为精确的字幕和歌词文件。通过结合OpenAI的Whisper语音识别技术和GPT-5-nano智能分段,为音乐人和内容创作者提供完整的音频转字幕解决方案。
## 核心功能模块
### 1. 音频输入与转录 (Audio Input & Transcription)
– **AudioInput节点**: 通过表单触发器接收MP3音频文件上传(最大25MB)
– **WhisperTranscribe节点**: 调用OpenAI Whisper API进行语音转文字,提供单词级时间戳
– 支持多种语言转录,适用于干净的录音环境
### 2. AI歌词智能分段 (AI Lyrics Segmentation)
– **OpenAI Chat Model节点**: 使用GPT-5-nano模型
– **PostProcessing节点**: 将原始转录文本智能分割为适合演唱的歌词行(每行2-8个单词)
– 保持原始用词不变,仅优化行结构
### 3. 质量检查与手动校正 (Quality Control)
– **RoutingQualityCheck节点**: 根据用户选择决定是否进行质量检查
– **TranscribedLyrics节点**: 生成转录文本文件供下载
– **QualityCheck节点**: 提供手动校正界面,用户可以上传修正后的歌词文件
### 4. 智能时间戳对齐 (Smart Timestamp Alignment)
– **TimestampMatching节点**: 使用模糊匹配算法将转录文本与时间戳对齐
– **DiffMatch + SrcPrep节点**: 应用Levenshtein距离算法进行精确的单词级时间戳对齐
– 处理插入、修改和匹配的单词,确保时间准确性
### 5. 多格式文件生成 (Multi-format File Generation)
– **SubtitlesPreparation节点**: 准备SRT和LRC格式内容
– **SRT节点**: 生成标准的SRT字幕文件,适用于YouTube和视频平台
– **LRC节点**: 生成LRC歌词文件,适用于Musixmatch和流媒体服务
## 技术特点
### 高级时间戳处理
– 最小持续时间:0.8秒
– 最大持续时间:5.0秒
– 字符读取速度:每秒20个字符
– 自动防重叠机制
### 文件格式支持
– **SRT格式**: 标准视频字幕格式,包含序号、时间轴和文本
– **LRC格式**: 歌词同步格式,用于音乐播放器和流媒体平台
### 质量控制选项
– 自动模式:直接生成文件
– 手动模式:下载转录文本 → 手动校正 → 重新上传 → 智能时间戳对齐
## 应用场景
– **音乐制作**: 为歌曲生成精确的歌词时间戳
– **视频内容**: 为音乐视频创建专业字幕
– **流媒体平台**: 准备Musixmatch兼容的歌词文件
– **内容创作**: 为播客和音频内容生成字幕
## 设置要求
– OpenAI API密钥(用于Whisper和GPT-5-nano)
– 干净的音频文件(MP3格式,最大25MB)
– 支持多语言转录
这个工作流通过AI技术的组合应用,实现了从音频到专业字幕文件的完整自动化流程,大大提高了内容制作的效率和质量。

评论(0)