
这个工作流能够自动化、可扩展地收集来自网站的高质量AI就绪数据,使用Bright Data的Web Unlocker,重点是为LLM训练准备这些数据。利用LLM链和AI代理,系统格式化并提取关键信息,然后将结构化嵌入存储在Pinecone向量数据库中。
这个工作流适合:
构建或微调领域特定LLM的ML工程师和研究人员。
需要干净、结构化内容进行产品训练的AI初创公司。
为企业级AI应用准备知识库的数据团队。
跨细分领域获取动态网络内容的LLM即服务提供商。
这个工作流解决什么问题?
训练大型语言模型(LLM)需要大量干净、相关且结构化的数据。手动收集速度慢、容易出错且缺乏可扩展性。
这个工作流:
自动从指定URL提取网络数据。
使用Bright Data的Web Unlocker绕过反机器人措施。
使用LLM代理格式化、清理和转换原始内容。
将语义可搜索向量存储在Pinecone中。
使数据集AI就绪,用于微调、RAG或领域特定训练。
这个工作流做什么
这个工作流自动化收集、清理和向量化网络内容的过程,以创建结构化、高质量的数据集,这些数据集已准备好用于LLM(大型语言模型)训练或检索增强生成(RAG)。
使用Bright Data Web Unlocker进行网络爬取。
AI信息提取和数据格式化。
AI数据格式化以生成JSON结构化数据。
在Pinecone向量数据库中持久化。
处理结构化数据的Webhook通知。
设置
在Bright Data注册。
导航到代理和抓取,在抓取解决方案下选择Web Unlocker API,创建新的Web Unlocker区域。
在n8n中,在凭据下配置Header Auth账户(通用认证类型:Header Authentication)。
Value字段应设置为Bearer XXXXXXXXXXXXXX。XXXXXXXXXXXXXX应替换为Web Unlocker令牌。
Google Gemini API密钥(或通过Vertex AI或代理访问)。
通过导航到Set LinkedIn URL节点更新LinkedIn URL。
使用用于网络数据提取的URL和Webhook通知URL更新Set Fields – URL and Webhook URL节点。
如何根据您的需求自定义此工作流
设置您的目标URL。目标是高质量、领域特定且与您的LLM目的相关的网站。
调整Bright Data Web Unlocker设置。地理位置、标头/用户代理字符串、重试规则和代理。
修改信息提取逻辑。更改提示以提取特定属性。在提示中使用结构化模板或少量示例。
交换嵌入模型。使用OpenAI、Hugging Face或其他您自己托管的嵌入模型API。
自定义Pinecone元数据字段。在Pinecone中存储额外字段以进行更好的过滤和语义查询。
添加数据验证或去重。跳过重复项或低质量内容。

评论(0)