2024 BeautifulSoup、Requests、PythonでのWebスクレイピング

BeautifulSoup、Requests、Sublime、およびPythonを使用して、Webスクレイピングボットを構築する方法をご覧ください。見てみな

以前の第1章 Python Superpowers。彼女または彼がそれを必要とする理由と、Mac OSの最新のPythonバージョンをインストールしてセットアップする方法を学びました。ご存知かもしれませんが、デジタルマーケティング担当者にとって最も重要なPythonの利点の1つは、Webデータをこすることとデータを自動的に更新することです。

このpythonチュートリアルでは、私はセットアップの方法について説明します客観的なWebサイトデータを削減する目的でPythonスクリプトを作成する環境。この記事は、Python Methodの紹介、コード作成、およびデータをスプレッドシートまたはデータベースにフィードすることに関する詳細については説明しません。他の記事やビデオをリリースして歩きます。しかし、この記事の目的は、全体像を理解させることです。必要なコンポーネントとそれがどのように機能するかを学ぶことができます。

この章の最後までに、beautifulsoup4のインストールをマスターできます。 、LXML、HTML5LIB、およびSUBLIMEテキスト。そして、あなたは彼らからウェブデータを削る方法を学ぶことができます。

目次:BeautifulSoup、Requests、PythonでのWebスクレイピング

beautifulsoup4

美しいスープは、Webページから情報を簡単に取ることができるライブラリです。 HTMLまたはXMLパーサーの上に位置し、Pythonicイディオムを提供します。解析ツリーを繰り返し、検索し、変更するためです。

beautifulsoup4のインストールは複雑ではありません。 p>

1. pypi.orgに移動して、最新バージョンのBeautifulSoup4-4.9.3 をダウンロードしてください

2. Mac端末を開き、入力

cd desktop

(注:デスクトップはbeautifulsoup4ファイルの場所を保存することを意味します)

cd beautifulsoup4-4.9.3

sudo python3 ./setup.pyインストール

3. beautifulsoup4を正常にインストールするかどうかを確認

input:pip3インストールbeautifulsoup4。返品値がすでに満たされている要件である場合、それはインストールが行われることを意味します。

インストールしたら、htmlを解析するパーサーを確保する必要があります。パーサーは、データをこすり、正しい返品結果を取得するために不可欠です。基本的に、それは客観的なHTMLページ情報が重要であるためです。ターゲットページ構造が完全な形で構築されている場合、パーサー間に違いはありません。しかし、ターゲットページの構造に間違いがある場合、異なるパーサーが欠落している情報を異なる方法で記入し、戻り結果が正しいことを確認できます。

beautifulsoup4ドキュメントには、パーサー間の違いを説明します。しかし、基本的に、彼らは style = “background-color:#ffff00;”> lxmlパーサー 。ここでは、Mac端末にインストールする方法を示します:

pip3インストールlxml

pip 3インストールhtml5lib

requests

リクエストを使用できます httpまたはhttpsリクエストを簡単に作成します。それはPythonライブラリだからです。基本的に、その主な目的は、Pythonスクリプトを実行して客観的なデータを呼び出し、画面に表示することです。ブラウザのURLを入力してページを開くと機能しています。一般的に、リクエストには2つの主要なユースケースがあり、APIにリクエストを行い、Webサイトから生のHTMLコンテンツを取得します(つまり、スクレイピング)。

リクエストのインストールは非常に簡単です。

  • Macターミナルを開く。
  • input:install requests。 Mac Pythonバージョンの間にエイリアスを作成していない場合は、PIP3を使用することを忘れないでください。そして、ここで使用している最新のPython3バージョン。それ以外の場合は、間違ったフォルダーパスにインストールを引き起こす可能性があります。
  • wait and requests ol日付と関連バージョンの情報を含む正常にインストールされています。

Sublime Text Editor

崇高なテキストは shareware cross-platform ソースコードエディター -Weight:400; “>アプリケーションプログラミングインターフェイス(api)無料。ネイティブにサポートしますプログラミング言語 and マークアップ言語。 関数は、プラグイン、通常コミュニティ構築され、フリーソフトウェアの下で維持ライセンス。

Atomeなどの利用可能な無料エディターがたくさんあります。すでに持っている場合は、別の同様のソフトウェア。崇高なテキストを例として、それを使用してスクリプトを作成し、Webデータをスクレイプする方法を説明します。

1. ビルドシステムを確認し、最新のPythonを更新

崇高なテキストでは、ツールに行ってシステムを構築する場合は、見つけることができます。 Pythonを含む多くのプログラミング言語オプション。ただし、デフォルトのPythonバージョンは更新されない場合があります。以下のスクリーンキャップからわかるように、Pythonを選択して単一の行コードを入力すると、最新のPython3

の代わりにPython 2.7が表示されます。

import sys

print(sys.version)

2. 新しいpython3ビルドシステムを追加

ビルドシステムとスクリプトの追加コードのラインが表示されます:

"shell_cmd”:“ make”

以下のコードに置き換えて保存します。これで、最新のPython3バージョンをインストールしました。ImportSys、Print(Sys。バージョン)を入力して確認できます

"cmd":["python3"、 "-i"、 "-u"、 "$ file"]、

"file_regex": "^[] file \ "(...?)\"、line([0-9]*) "、

"selector": "source.python"

webスクレイピングケース:

物事は今すぐ準備ができており、崇高なウェブスクレーピングをテストできます。

まず、BeautifulSoupとリクエストが必要です。 /span>

BS4 Import BeautifulSoup

リクエストのインポート

以下は、私のHTMLソーステキストデータを取得するように要求する変数です。ウェブサイトeコマース記事セクション

source = requests.get( 'http: //www.easy2digital.com/topics/ecommerce/')。テキスト

それから、このソースコード情報をBeautifulSoupに解析して印刷できます。

soup = beautifulsoup(source、 'lxml' )

print(soup.prettify())

最後に、入力コマンドB コーディングを実行するには、ページのすべてのソースコードが生成されます。このデータは、必要な分割データを具体的にスクレイプするためにコードの行を作成する必要があるため、まだ役に立ちません。

崇高なテキストエディターによるWebスクレイピング環境はすでに機能しています、そして問題は、私たちが崇高なテキストエディターの目的に基づいてコードをこすり、書き込むことを目指していることです。

第2章を読むことを楽しんでいただければ幸いです。文章。もしそうなら、以下にリストされていることの1つを行うことで私たちをサポートしてください。

  • PayPal (paypal.me/Easy2digital)を通じて弊社チャンネルをサポートおよび寄付を行う
  • Easy2Digital YouTubeチャンネルの登録と通知ベルをオンにする。
  • Easy2Digital Facebookページをフォローしていいね!を押す
  • ハッシュタグ#easy2digitalを使用して、ソーシャルネットワーク上で記事を共有する
  • Easy2Digitalの最新記事、動画、割引コードを受け取るために、週刊ニュースレターに登録する
  • www.patreon.com/louisludigitalを通じて、独占的な特典をお楽しみいただくための月額会員に登録する

よくある質問:

Q1: 楽天とは何ですか?

A: 楽天は、日本最大級のインターネットサービス企業で、オンラインショッピング、オークション、トラベル、金融などさまざまなサービスを提供しています。

Q2: 楽天ポイントはどのように獲得できますか?

A: 楽天ポイントは、楽天の提供するサービスを利用することで獲得することができます。例えば、楽天市場での買い物や楽天カードの利用などがあります。

Q3: 楽天ポイントの有効期限はありますか?

A: 楽天ポイントの有効期限はあります。一般的には、獲得から1年後にポイントの有効期限が切れますので、ご注意ください。

Q4: 楽天ポイントは他のサービスと交換できますか?

A: はい、楽天ポイントは他のサービスと交換することができます。楽天スーパーポイントモールでは、ポイントを現金やギフトカード、マイルなどに交換することができます。

Q5: 楽天カードの特典はありますか?

A: 楽天カードにはさまざまな特典があります。例えば、楽天市場でのお買い物でポイントが2倍になるなどの特典があります。詳細は楽天カードの公式ウェブサイトでご確認ください。

Q6: 楽天市場での商品の返品は可能ですか?

A: 楽天市場で購入した商品の返品は、各ショップの返品ポリシーに準拠します。商品ページやショップページで返品に関する情報をご確認ください。

Q7: 楽天トラベルで予約したホテルの変更はできますか?

A: 楽天トラベルで予約したホテルの変更については、予約条件により異なります。予約確認メールやサポートセンターにお問い合わせください。

Q8: 楽天証券で株式売買をするにはどうすればいいですか?

A: 楽天証券で株式売買をするには、まず楽天証券の口座を開設する必要があります。その後、取引画面から注文を入力し、売買を行うことができます。

Q9: 楽天モバイルの料金プランはありますか?

A: はい、楽天モバイルにはさまざまな料金プランがあります。シンプルプランやフラットプランなど、お客様のニーズに合わせて選ぶことができます。詳細は楽天モバイルの公式ウェブサイトでご確認ください。

Q10: 楽天ペイの使い方を教えてください。

A: 楽天ペイを利用するためには、まず楽天アプリをダウンロードし、楽天IDでログインする必要があります。その後、お店でQRコードを読み取り、支払いを行うことができます。