使用OpenAI和爬虫工具自动化丰富公司数据的工作流
n8n工作流,OpenAI代理,数据爬取,Google表格自动化,公司数据分析,AI数据提取,自动化数据处理

此工作流演示了如何从电子表格中的公司列表中丰富数据。虽然如果遵循所有步骤,此工作流已可用于生产环境,但添加错误处理将增强其稳健性。

重要注意事项
检查法律法规:此工作流涉及爬虫,因此在开始之前请确保检查您所在国家/地区关于爬虫的法律法规。安全总比后悔好!
注意令牌使用:OpenAI令牌可能很快累积,因此请密切关注使用情况,除非您想要一个让您大吃一惊的意外账单!💸

主要工作流
节点1 – Webhook
此节点通过webhook调用触发工作流。您可以用任何其他触发器替换它,例如表单提交、Google表格中添加的新行或手动触发器。

节点2 – 从Google表格获取行
此节点从您的电子表格中检索公司列表。
这是您可以使用的Google表格模板。
此Google表格中的列是:

公司:公司名称
网站:公司的网站URL
这两个字段在此步骤中是必需的。

业务领域:由OpenAI从爬取数据中推断的业务领域
产品:由OpenAI从爬取数据中推断的产品
价值主张:由OpenAI从爬取数据中推断的价值主张
商业模式:由OpenAI从爬取数据中推断的商业模式
理想客户画像:由OpenAI从爬取数据中推断的理想客户画像
附加信息:与爬取数据相关的信息,包括:

信息充分性:
描述:指示信息是否足以提供完整分析。
选项:”充分”或”不充分”
不充分详细信息:
描述:如果标记为”不充分”,指定缺少什么信息或需要什么信息来完成分析。
内容不匹配:
描述:指示页面内容是否与典型公司页面一致。
建议操作:
描述:如果页面内容不充分或不匹配,提供建议,例如验证URL或搜索替代来源。

节点3 – 循环项目
此节点确保在后续步骤中,”额外工作流输入”中的网站与正在处理的行相对应。您可以删除此节点,但需要确保发送到爬虫工作流的”查询”对应于正在爬取的特定公司的网站(而不仅仅是第一行)。

节点4 – AI代理
此AI代理配置了一个提示,用于从接收的内容中提取数据。该节点有三个子节点:

OpenAI聊天模型:当前使用的模型是gpt4-o-mini。
调用n8n工作流:此子节点调用工作流以使用ScrapingBee并检索爬取的数据。
结构化输出解析器:此解析器构建输出以实现清晰和易用性,然后将行添加到Google表格。

节点5 – 在Google表格中更新公司行
此节点使用丰富的数据更新Google表格中的特定公司行。

爬虫代理工作流
节点1 – 从代理调用的工具
这是当AI代理调用爬虫时的触发器。发送的查询包含:

公司名称
网站(网站的URL)

节点2 – 设置公司URL
此节点重命名字段,这看似微不足道,但对于对从AI代理接收的数据执行转换很有用。

节点3 – ScrapingBee:爬取公司网站
此节点使用ScrapingBee从提供的URL爬取数据。您可以使用任何您选择的爬虫,但推荐使用ScrapingBee,因为它允许您直接配置爬虫行为。配置完成后,复制提供的”curl”命令并将其导入n8n。

节点4 – HTML转Markdown
此节点将爬取的HTML数据转换为Markdown,然后发送到OpenAI。Markdown格式通常比HTML使用更少的令牌。

改进工作流
分享工作流总是令人愉快的,但创作者有时想保留一些魔法✨。以下是您可以增强此工作流的一些方法:

处理潜在错误
配置爬虫工具以爬取网站上的其他页面。虽然这会花费更多令牌,但可能很有用(例如,除了主页之外,还爬取”定价”或”关于我们”页面)。
而不是Google表格,直接连接到您的CRM以丰富公司数据。
从您网站上的表单提交触发工作流,并将关于潜在客户的爬取数据发送到Slack或Teams频道。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。