
使用网站 URL 提取关键字可以帮助您从头开始快速了解新品牌,而不是阅读所有信息。市面上有很多工具,但订阅费用昂贵,或者免费工具用户界面不友好,尤其是不提供 API 供您与业务仪表板集成。
在本文中,我将尝试使用 Easy2Digital API – 品牌信息抓取器和 Google SERP 抓取器来构建关键字提取器。
使用 Easy2Digital API 构建关键字提取器的要素
目录
使用 Easy2Digital API 收集品牌相关 URL
第一个问题是在哪里提取与您正在调查的品牌相关的关键字。答案就是品牌的官方网站和周边门户网站。
API使用的代码示例如下:

使用 BeautifulSoup 从 URL 中抓取内容
对于非基于 React 的网站页面抓取,Beautifulsoup 无疑是最佳选择。为了在此阶段更好地抓取尽可能多的原始文本,我建议分别抓取 h1、h2、h3 和 p 内容并使用 find_all() 来制作。代码示例如下:
使用停用词提取文本的关键字
在关键字提取器 top 参数中,我们可以添加一个数字来仅提取最常见的关键字,例如前 10 个和前 5 个。此外,为了避免获取英语停用词,我们可以在第二个参数 – stopwords 中添加列表
那里有一些停用词模块,这里我推荐您使用 scikit-learn,因为根据我的个人经验,与其他模块相比,它具有最长的停用词列表。将此模块导入脚本之前,请务必安装 scikit-learn python 包。
from sklearn . feature_extraction . text import ENGLISH_STOP_WORDS
在 extract_keywords 中,我们需要从刚刚完成的网站中提供抓取的文本。在这里,我创建了一个名为 full_text 的变量,其中包含抓取的文本。
keywords = kw_extractor . extract_keywords ( full_text )
对提取的关键词进行去重或Word Cloudify
如果脚本运行正常,它可以像这样生成提取的关键字。它是 JSON 格式,我们可以创建一个循环来提取没有分数值的关键字。

总的来说,我们有两种方法可以很好地利用这些关键词进行智能洞察。一种是使用数千个关键词生成词云,按大小显示关键词流行度。另一种是删除重复的关键字,仅保留唯一关键字的列表。在这里我将展示如何删除重复的脚本。
final_keyword = list ( dict . fromkeys ( keywordResult ))
关键字提取器的完整 Python 脚本
如果您对第 68 章 – 使用 Easy2Digital API 构建关键字提取器感兴趣,请添加消息“第 68 章”来订阅我们的时事通讯。我们会立即将脚本发送到您的邮箱。 (如果您还需要电子邮件抓取工具,请告诉我们您需要付费版本。
我希望您喜欢阅读第 68 章 – 使用 Easy2Digital API 构建关键字提取器。如果您这样做了,请通过执行下列操作之一来支持我们,因为这总是对我们的频道有所帮助。
- 通过 PayPal ( paypal.me/Easy2digital ) 支持并捐赠我们的频道
- 订阅我的频道并打开通知铃Easy2Digital Youtube 频道。
- 关注并喜欢我的页面Easy2Digital Facebook 页面
- 使用主题标签 #easy2digital 在您的社交网络上分享文章
- 您订阅我们的每周通讯即可接收 Easy2Digital 最新文章、视频和折扣代码
- 通过 Patreon 订阅我们的月度会员即可享受独家优惠 ( www.patreon.com/louisludigital )