使用Easy2Digital API、Yake、Python 构建关键字提取器

使用网站 URL 提取关键字可以帮助您从头开始快速了解新品牌，而不是阅读所有信息。市面上有很多工具，但订阅费用昂贵，或者免费工具用户界面不友好，尤其是不提供 API 供您与业务仪表板集成。

在本文中，我将尝试使用 Easy2Digital API – 品牌信息抓取器和 Google SERP 抓取器来构建关键字提取器。

使用 Easy2Digital API 构建关键字提取器的要素

第一个问题是在哪里提取与您正在调查的品牌相关的关键字。答案就是品牌的官方网站和周边门户网站。

API使用的代码示例如下：

对于非基于 React 的网站页面抓取，Beautifulsoup 无疑是最佳选择。为了在此阶段更好地抓取尽可能多的原始文本，我建议分别抓取 h1、h2、h3 和 p 内容并使用 find_all() 来制作。代码示例如下：

在关键字提取器 top 参数中，我们可以添加一个数字来仅提取最常见的关键字，例如前 10 个和前 5 个。此外，为了避免获取英语停用词，我们可以在第二个参数 – stopwords 中添加列表

那里有一些停用词模块，这里我推荐您使用 scikit-learn，因为根据我的个人经验，与其他模块相比，它具有最长的停用词列表。将此模块导入脚本之前，请务必安装 scikit-learn python 包。

from sklearn . feature_extraction . text import ENGLISH_STOP_WORDS

在 extract_keywords 中，我们需要从刚刚完成的网站中提供抓取的文本。在这里，我创建了一个名为 full_text 的变量，其中包含抓取的文本。

keywords = kw_extractor . extract_keywords ( full_text )

如果脚本运行正常，它可以像这样生成提取的关键字。它是 JSON 格式，我们可以创建一个循环来提取没有分数值的关键字。

总的来说，我们有两种方法可以很好地利用这些关键词进行智能洞察。一种是使用数千个关键词生成词云，按大小显示关键词流行度。另一种是删除重复的关键字，仅保留唯一关键字的列表。在这里我将展示如何删除重复的脚本。

final_keyword = list ( dict . fromkeys ( keywordResult ))

如果您对第 68 章 – 使用 Easy2Digital API 构建关键字提取器感兴趣，请添加消息“第 68 章”来订阅我们的时事通讯。我们会立即将脚本发送到您的邮箱。（如果您还需要电子邮件抓取工具，请告诉我们您需要付费版本。

我希望您喜欢阅读第 68 章 – 使用 Easy2Digital API 构建关键字提取器。如果您这样做了，请通过执行下列操作之一来支持我们，因为这总是对我们的频道有所帮助。