AI视频转语音工作流 - 使用n8n自动化视频处理与语音生成
n8n工作流,AI视频处理,语音生成,OpenAI,多模态LLM,视频转语音,自动化内容创作

此 n8n 模板获取视频并从中提取帧,这些帧与多模态 LLM 一起用于生成脚本。然后将脚本传递给相同的多模态 LLM 以生成语音片段。

此模板的灵感来源于使用 GPT 视觉功能和 TTS API 处理和叙述视频

工作原理
– 使用 HTTP 节点下载视频
– 使用 Python 代码节点通过 OpenCV 提取帧
– 使用循环节点将帧分批处理,供 LLM 生成部分脚本
– 所有部分脚本组合形成完整脚本,然后发送到 OpenAI 从中生成音频
– 完成的语音片段上传到 Google Drive

在此查看成品示例:https://drive.google.com/file/d/1-XCoii0leGB2MffBMPpCZoxboVyeyeIX/view?usp=sharing

要求
– 用于 LLM 的 OpenAI
– 理想情况下,使用中端(16GB RAM)机器以获得可接受的性能!

自定义此工作流
– 对于较大的视频,考虑分割成较小的片段以获得更好的性能
– 使用支持完整视频的多模态 LLM,例如 Google 的 Gemini

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。