Twitterメールスクレイパーを作成する方法

このPythonチュートリアルでは、TweepyとTwitterを使用してユーザーのメールアドレスを取得するTwitterメールスクレイパーを作成する方法について説明します。このチュートリアルの最後には、正規表現を使用して段落からテキスト情報を抽出する方法も説明します。

Pythonモジュール:Easy2Digital API、Twitter API、正規表現

目次:Twitter Email Scraper

Twitter Email Scraper – Twitterプロファイルのメールアドレスをスクレイプするための方法論

Twitter API自体は、プライバシーやGDPRのコンプライアンスに対応しているため、Twitterユーザープロファイルのメールアドレスは提供していません。ただし、ビジネスコラボレーションを積極的に探しているTwitterプロファイルは、通常、その連絡先をバイオグラフィに記載しています。手動で目を凝らして情報を収集するようにその情報をスクレイピングすることは、データプライバシーに違反していません。なぜなら、ユーザーはあなたに彼女または彼に連絡するように歓迎しているからです。

したがって、このPythonチュートリアルの方法論は、バイオグラフィ情報をスクレイピングして、電子メールを抽出することです。基本的に、ほとんどのユーザーはそこに彼らの連絡先を置きます。

Twitter email scraper

TwitterのニックネームまたはTwitter IDが大丈夫

バイオグラフィ情報をスクレイプする前に、特定のプロファイルIDまたはニックネームが必要です。このスクレイピングアプローチについては、この記事を参照してください。

Chapter 34: Twitter Bot for Scraping Most Popular Topics and Influencer Profiles

Twitterユーザーのバイオグラフィ情報をスクレイプする

Twitterのニックネームを例にとります。名前のリストが準備できたら、Tweepyのget_user()メソッドとパラメーターscreen_nameを使用します。このメソッドは、バイオグラフィ情報を含む特定のTwitterユーザープロファイル情報を呼び出すことができます。

レスポンスデータのフォーマットは、現時点ではJSONとAPIレスポンスID番号が混在しています。JSONを解析するには、ユーザーjsonデータを取得するためのuser._jsonコマンドを追加する必要があります。

次に、JSONデータの一部にはdescriptionというデータセットがあります。これは、ユーザーが自分のプロファイルにアップロードしたバイオグラフィ情報です。これをスクレイプする必要があります。複数のユーザーニックネームを持っている場合は、ループが必要です。

Twitter Email Scraper – 正規表現を使用して電子メールアドレスを抽出する

バイオグラフィ情報には、電子メールアドレス、WebサイトのURL、ソーシャルプロファイルなどが含まれる場合があります。必要に応じて正規表現をカスタマイズできます。ここに電子メールアドレスを抽出するための正規表現があります。

Regexextract式で、第1の位置引数はデータソースを設定するためです。

第2の位置引数は、電子メールを抽出するための式です。

Twitter Email Scraperの完全なPythonスクリプト

Chapter 50 – Twitter Email Scraper Using Twitter、Easy2Digital API、およびRegular Expressionの完全なスクリプトに興味がある場合は、「Chapter 50」というメッセージを追加してニュースレターに登録してください。すぐにスクリプトをあなたのメールボックスに送信します。

お問合せ

Chapter 50 – Twitter Email Scraper Using Twitter、Easy2Digital API、およびRegular Expressionをお楽しみいただけたら幸いです。もしそうであれば、以下のいずれかのことを行って、チャンネルをいつも支援してくれることをお願いします。

  • ターミナルを開く
  • パスに移動する
  • $ chmod 400 .pem
  • $ ssh -i .pem ubuntu@
  • 両方のコマンドは、インスタンス接続ページからコピーできます。行って、探索してください!この記事よりも更新された機能を見つけることができるかもしれません。AWSは、競合他社と比較して、より脂っこく、油っこくなる傾向があります。

    EC2にFlaskアプリを追加する

    ここまで来たら、通常の方法でFlaskを設定してアプリを展開するだけです。以下の手順に従ってください:

    • Python virtualenvをインストールする

    $ sudo apt-get update

    $ sudo apt-get install python3-venv

    • 新しいディレクトリで新しい仮想環境をアクティブにする

    // ディレクトリを作成する

    $ mkdir lovely

    $ cd lovely

    // 仮想環境を作成する

    $ python3 -m venv venv

    // 仮想環境をアクティブにする

    • PayPal (paypal.me/Easy2digital)を通じて弊社チャンネルをサポートおよび寄付を行う
    • Easy2Digital YouTubeチャンネルの登録と通知ベルをオンにする。
    • Easy2Digital Facebookページをフォローしていいね!を押す
    • ハッシュタグ#easy2digitalを使用して、ソーシャルネットワーク上で記事を共有する
    • Easy2Digitalの最新記事、動画、割引コードを受け取るために、週刊ニュースレターに登録する
    • www.patreon.com/louisludigitalを通じて、独占的な特典をお楽しみいただくための月額会員に登録する

    コメントを残す

    メールアドレスが公開されることはありません。 が付いている欄は必須項目です