ウェブサイトのURLを使用したキーワード抽出は、すべての情報を読み込む代わりに、ゼロから新しいブランドについて迅速に学ぶことができます。多くのツールがありますが、購読するのは高価であり、無料のツールは使い勝手が悪く、特にAPIを提供していないため、ビジネスダッシュボードに統合することができません。
この記事では、Easy2Digital API – ブランド情報スクレイパーとGoogle SERPスクレイパーを使用して、キーワード抽出ツールを作成してみます。
Easy2Digital APIを使用したキーワード抽出ツールの構築に必要なもの
目次
- Easy2Digital APIを使用してブランドに関連するURLを収集する
- BeautifulSoupを使用してURLからコンテンツをスクレイピングする
- 抽出されたキーワードの重複を削除する
- キーワード抽出ツールの完全なPythonスクリプト
Easy2Digital APIを使用してブランドに関連するURLを収集する
最初の質問は、調査対象のブランドに関連するキーワードをどこから抽出するかということです。答えは、ブランドの公式サイトと周辺のポータルサイトです。
以下はAPI使用のコードサンプルです。
BeautifulSoupを使用してURLからコンテンツをスクレイピングする
非Reactベースのウェブサイトページスクレイピングには、Beautifulsoupが最適です。できる限り多くの生のテキストをスクレイピングするために、h1、h2、h3、およびpコンテンツを個別にスクレイピングし、find_all()を使用することをお勧めします。以下はコードサンプルです。
ストップワードを使用してテキストのキーワードを抽出する
キーワード抽出のトップ引数では、最も頻繁に使用されるキーワードのみを抽出する数を追加することができます(例:トップ10、トップ5)。また、英語のストップワードを回避するために、第二引数にリストを追加できます – ストップワード
そこにいくつかのストップワードモジュールがありますが、ここではscikit-learnを使用することをお勧めします。個人的な経験に基づくと、scikit-learnには他のストップワードリストよりも長いストップワードリストが含まれています。このモジュールをスクリプトにインポートする前に、scikit-learn Pythonパッケージをインストールする必要があります。
from sklearn.feature_extraction.text import ENGLISH_STOP_WORDS
extract_keywordsでは、先ほど行ったウェブサイトからスクレイピングしたテキストを提供する必要があります。ここでは、スクレイピングされたテキストを含むfull_textという変数を作成しました。
keywords = kw_extractor.extract_keywords(full_text)
抽出したキーワードを重複を削除するまたはワードクラウド化する
スクリプトが正常に動作している場合、以下のように抽出されたキーワードを生成できます。JSON形式であり、ループを作成してスコア値なしでキーワードを抽出できます。
全体的に、インテリジェントインサイトを得るためにこれらのキーワードをうまく使用する方法は2つあります。1つは、サイズによるキーワードの人気度を示すために、数千のキーワードを使用してワードクラウドを生成することです。もう1つは、キーワードを重複させずに、一意のキーワードのリストのみを残すことです。ここでは、スクリプトを重複解除する方法を示します。
final_keyword = list(dict.fromkeys(keywordResult))
キーワード抽出プログラムのPythonスクリプト
Chapter 68 – Build a Keyword Extractor Using Easy2Digital APIsに興味がある場合は、ニュースレターに登録して、メッセージ「Chapter 68」を追加してください。スクリプトをメールボックスにすぐに送信します。(メールスクレイパーも必要な場合は、有料版が必要であることをお知らせください。
Chapter 68 – Build a Keyword Extractor Using Easy2Digital APIsをお楽しみいただければ幸いです。サポートいただける場合は、以下のいずれかのことを行っていただくと、常に私たちのチャンネルを支援するのに役立ちます。
- PayPalを通じて私たちのチャンネルをサポートして寄付する(paypal.me/Easy2digital)
- 私のチャンネルに登録し、通知ベルをオンにするEasy2Digital Youtubeチャンネル。
- 私たちのEasy2Digital Facebookページをフォローし、いいねをする
- あなたのソーシャルネットワークで記事をハッシュタグ#easy2digitalでシェアする
- Easy2Digitalの最新記事、ビデオ、割引コードを受け取るために、週刊ニュースレターにサインアップする
- Patreonを通じて月次会員登録を行い、独占的な特典を楽しむ(www.patreon.com/louisludigital)