
## 工作流概述
这个n8n工作流创建了一个先进的多模态AI记忆助手,能够从多种来源捕获、理解和智能回忆您的个人或业务信息。它自动处理通过Telegram发送的语音笔记、图像、文档(如PDF)和文本消息。
## 工作原理
### 1. 多模态输入摄取 🗣️📸📄💬
当您向Telegram机器人发送语音笔记、图像、文档或文本消息时,工作流会立即识别输入类型。
### 2. 高级AI内容处理 🧠✨
每种输入类型都经过GPT-4o的专业AI处理:
– 语音笔记使用OpenAI Whisper转录为文本
– 图像通过GPT-4o Vision进行视觉分析,生成详细的文本描述
– 文档(PDF)进行文本提取,利用GPT-4o进行内容解析和理解
– 文本消息直接转发进行进一步处理
### 3. 智能记忆分块与向量化 ✂️🏷️➡️🔢
处理后的内容被送入GPT-4o,AI智能地将信息分块为较小的语义连贯片段,提取相关关键词和标签,并生成简明摘要。每个增强的记忆块使用OpenAI Embeddings转换为高维向量嵌入。
### 4. 持久存储与回忆 💾🔍
这些向量嵌入及其原始内容、元数据和标签存储在MongoDB Atlas集群中,配置了Atlas Vector Search,实现基于用户查询的高效语义相关记忆检索。
### 5. AI代理与外部工具 🤖🛠️
当您提问时,AI代理(基于GPT-4o)作为核心智能,使用MongoDB聊天记忆维护对话上下文,并查询MongoDB Atlas Vector Search存储以检索相关记忆。代理还可以访问Gmail工具,能够代表您发送电子邮件或搜索过去的邮件。
### 6. 智能响应生成与交付 💬➡️📱
使用从MongoDB检索的上下文和对话历史,GPT-4o合成简洁、准确且上下文感知的答案,通过Telegram机器人回复给您。
## 技术节点
主要使用的节点包括:
– Telegram Trigger – 接收用户输入
– Switch – 根据输入类型路由处理
– OpenAI – 语音转录、图像分析、文档处理
– AI Agent – 核心智能处理
– MongoDB Chat Memory – 对话记忆存储
– Gmail Tool – 邮件发送和搜索
– Set – 数据格式转换
– HTTP Request – 外部API调用
– If – 条件判断
– Extract from File – 文件内容提取
## 设置指南
设置此工作流需要约20分钟,需要配置:
– Telegram机器人API令牌
– OpenAI API密钥
– MongoDB Atlas集群和向量搜索索引
– Gmail OAuth2认证
– 外部API服务(如ConvertAPI)
## 增强可能性
– 扩展文档类型支持
– 精细化的记忆分块策略
– 高级AI提示设置
– 更多n8n工具集成
– 外部数据源API集成

评论(0)