使用OpenAI代理和爬虫工具从Google表格中丰富公司数据

使用OpenAI和爬虫工具自动化丰富公司数据的工作流 — n8n工作流,OpenAI代理,数据爬取,Google表格自动化,公司数据分析,AI数据提取,自动化数据处理

此工作流演示了如何从电子表格中的公司列表中丰富数据。虽然如果遵循所有步骤，此工作流已可用于生产环境，但添加错误处理将增强其稳健性。

重要注意事项
检查法律法规：此工作流涉及爬虫，因此在开始之前请确保检查您所在国家/地区关于爬虫的法律法规。安全总比后悔好！
注意令牌使用：OpenAI令牌可能很快累积，因此请密切关注使用情况，除非您想要一个让您大吃一惊的意外账单！💸

主要工作流
节点1 – Webhook
此节点通过webhook调用触发工作流。您可以用任何其他触发器替换它，例如表单提交、Google表格中添加的新行或手动触发器。

节点2 – 从Google表格获取行
此节点从您的电子表格中检索公司列表。
这是您可以使用的Google表格模板。
此Google表格中的列是：

公司：公司名称
网站：公司的网站URL
这两个字段在此步骤中是必需的。

业务领域：由OpenAI从爬取数据中推断的业务领域
产品：由OpenAI从爬取数据中推断的产品
价值主张：由OpenAI从爬取数据中推断的价值主张
商业模式：由OpenAI从爬取数据中推断的商业模式
理想客户画像：由OpenAI从爬取数据中推断的理想客户画像
附加信息：与爬取数据相关的信息，包括：

信息充分性：
描述：指示信息是否足以提供完整分析。
选项：”充分”或”不充分”
不充分详细信息：
描述：如果标记为”不充分”，指定缺少什么信息或需要什么信息来完成分析。
内容不匹配：
描述：指示页面内容是否与典型公司页面一致。
建议操作：
描述：如果页面内容不充分或不匹配，提供建议，例如验证URL或搜索替代来源。

节点3 – 循环项目
此节点确保在后续步骤中，”额外工作流输入”中的网站与正在处理的行相对应。您可以删除此节点，但需要确保发送到爬虫工作流的”查询”对应于正在爬取的特定公司的网站（而不仅仅是第一行）。

节点4 – AI代理
此AI代理配置了一个提示，用于从接收的内容中提取数据。该节点有三个子节点：

OpenAI聊天模型：当前使用的模型是gpt4-o-mini。
调用n8n工作流：此子节点调用工作流以使用ScrapingBee并检索爬取的数据。
结构化输出解析器：此解析器构建输出以实现清晰和易用性，然后将行添加到Google表格。

节点5 – 在Google表格中更新公司行
此节点使用丰富的数据更新Google表格中的特定公司行。

爬虫代理工作流
节点1 – 从代理调用的工具
这是当AI代理调用爬虫时的触发器。发送的查询包含：

公司名称
网站（网站的URL）

节点2 – 设置公司URL
此节点重命名字段，这看似微不足道，但对于对从AI代理接收的数据执行转换很有用。

节点3 – ScrapingBee：爬取公司网站
此节点使用ScrapingBee从提供的URL爬取数据。您可以使用任何您选择的爬虫，但推荐使用ScrapingBee，因为它允许您直接配置爬虫行为。配置完成后，复制提供的”curl”命令并将其导入n8n。

节点4 – HTML转Markdown
此节点将爬取的HTML数据转换为Markdown，然后发送到OpenAI。Markdown格式通常比HTML使用更少的令牌。

改进工作流
分享工作流总是令人愉快的，但创作者有时想保留一些魔法✨。以下是您可以增强此工作流的一些方法：

处理潜在错误
配置爬虫工具以爬取网站上的其他页面。虽然这会花费更多令牌，但可能很有用（例如，除了主页之外，还爬取”定价”或”关于我们”页面）。
而不是Google表格，直接连接到您的CRM以丰富公司数据。
从您网站上的表单提交触发工作流，并将关于潜在客户的爬取数据发送到Slack或Teams频道。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

使用OpenAI代理和爬虫工具从Google表格中丰富公司数据

评论(0)

提示：请文明发言取消回复

近期文章

近期评论

使用OpenAI代理和爬虫工具从Google表格中丰富公司数据

评论(0)

提示：请文明发言 取消回复

相关文章

使用AI自动化Google Analytics报告工作流

恶意文件检测与响应：Wazuh到VirusTotal与Slack警报工作流

Google Translate Tool MCP Server – 完整的AI代理翻译解决方案

从RSS订阅源自动发布新文章到Slack频道

近期文章

近期评论

提示：请文明发言取消回复