2024 Web -Scraping mit BeautifulSoup, Anfragen und Python

Gehen Sie durch die Erstellung eines Web -Scraping -Bots, indem Sie BeautifulSoup, Anfragen, Erhabene und Python verwenden. Hör zu

In the previous Chapter 1, we discussed how a digital marketer can benefit from Python superpowers. We learned why she or he needs it, and how to install and set up the latest Python version for Mac OS. As you might be aware, one of the most essential Python benefits to digital marketers is to scrape web data and update the data automatically. 

In diesem Python -Tutorial werde ich darüber sprechen, wie ich eine Umgebung einrichten kann, um Python -Skripte zu schreiben, um objektive Website -Daten zu kratzen. Dieser Artikel geht nicht auf Details zur Einführung von Python -Methoden, zum Schreiben von Code und zur Fütterung der Daten in eine Tabelle oder Datenbank. Ich werde andere Artikel und Videos veröffentlichen, um durchzugehen. Der Zweck dieses Artikels ist es jedoch, Sie das Gesamtbild verstehen zu lassen. Sie können lernen, welche Komponenten notwendig sind und wie es funktioniert.

Am Ende dieses Kapitels können Sie die Installation von BeautifulSoup4, Anfragen, LXML, HTML5LIB und Sublime Text beherrschen. Und Sie können lernen, wie Sie Webdaten von ihnen abkratzen.

Inhaltsverzeichnis: Web -Scraping mit BeautifulSoup, Anfragen, Python

BeautifulSoup4

Schöne Suppe ist eine Bibliothek, die es einfach macht, Informationen von Webseiten abzukratzen. Es befindet sich auf einem HTML- oder XML -Parser und bietet pythonische Redewendungen. Sie sind zum Ierieren, Suchen und Ändern des Parse Tree.

Die Installation von BeautifulSoup4 ist nicht komplex. Im Folgenden finden Sie die Schritte

1. Gehen Sie zu pypi.org und laden Sie die neueste Version BeautifulSoup4-4.3 herunter

2. Öffnen Sie das Mac -Terminal und geben Sie ein

cd Desktop

(Hinweis: Desktop bezeichnet den wunderschönen Dateispeicherort, den Sie speichern)

cd beautifulsoup4-4.9.3

sudo python3 ./setup.py install

3. Überprüfen Sie, ob Sie BeautifulSoup4 erfolgreich installieren

Eingabe: PIP3 installieren Sie BeautifulSoup4. Wenn der Rückgabewert eine bereits erfüllte Anforderung ist, bedeutet dies, dass die Installation durchgeführt wird.

Sobald es installiert ist, müssen wir sicherstellen, dass wir Parser haben, um die HTML zu analysieren. Parser sind unerlässlich, um die Daten zu kratzen und das korrekte Rückgabeergebnis zu erhalten. Grundsätzlich liegt es daran, dass die objektiven HTML -Seiteninformationen wichtig sind. Wenn die Zielseitenstrukturen in perfekter Form eingebaut sind, gibt es keinen Unterschied zwischen den Parsers. Wenn die Zielseitenstrukturen jedoch Fehler aufweisen, können verschiedene Parser die fehlenden Informationen unterschiedlich ausfüllen und sicherstellen, dass das Rückgabeergebnis korrekt ist.

In BeautifulSoup4 documentation, there is a section that explains the difference among parsers. But basically, they suggest installing and using the lxml parser and html5lib parser. So here I show how to install it in a Mac terminal:

Pip3 install lxml

Pip 3 install html5lib

Anfragen

You can use Requests to easily make HTTP or HTTPS requests. It’s because it is a Python library. Basically, its primary purpose is to call the objective data and show it on your screen by running a Python script. It is functioning as you type in a URL on a browser to open the page. Generally, Requests have two main use cases, making requests to an API and getting raw HTML content from websites (i.e., scraping).

Die Anfragen sind ziemlich einfach, unten sind die Schritte aufgeführt

  1. Öffnen Sie das MAC -Terminal.
  2. Eingabe: PIP3 Installieren Sie Anforderungen. Bitte denken Sie daran, PIP3 zu verwenden, wenn Sie den Alias ​​nicht zwischen Ihrer Mac Python -Version erstellt haben. Und die neueste Python3 -Version, die ich hier als Beispiel verwende. Andernfalls kann dies zu einer Installation auf dem falschen Ordnerpfad führen.
  3. Warten Sie und prüfen Sie, ob Anfragen erfolgreich installiert werden, einschließlich des Datums und der verwandten Versionsinformationen.

Erhabener Texteditor

Sublime Text is a shareware cross-platform source code editor with a Python application programming interface (API) for free. It natively supports many programming languages and markup languages. And the functions can be added by users with plugins, typically community-built and maintained under free software licenses

Es gibt viele kostenlose Redakteure wie Atome usw. Sie können eine andere ähnliche Software verwenden, wenn Sie bereits eine haben. Ich nehme den erhabenen Text als Beispiel, um Sie durch das Erstellen von Skripten und die Kratzen von Webdaten zu führen.

1. Überprüfen Sie das Build -System und aktualisieren Sie das neueste Python

Wenn Sie in Sublime Text zu Tools und Build -Systemen gehen, finden Sie viele Programmiersprachenoptionen, einschließlich Python. Die Standard -Python -Version wird jedoch möglicherweise nicht aktualisiert. Wie Sie aus dem folgenden Screencap sehen können, wählen wir Python aus und geben einen einzelnen Zeilencode ein. Anstelle des neuesten Python3 zeigt Python 2.7 an, anstatt das neueste Python3

Import sys

print(sys.version)

Foto 1

Foto 2

2. Fügen Sie ein neues Python3 -Build -System hinzu

Hinzufügen eines Build -Systems und das Skript zeigt eine Codezeile:

“Shell_cmd”: “make”

Ersetzen Sie es durch die folgenden Codes und speichern Sie es. Jetzt haben Sie die neueste Python3 -Version installiert und können überprüfen, indem Sie Import -Systeme, Druck (sys. Version) eingeben, eingeben.

"cmd": ["python3", "-i", "-u", "$file"],    

"file_regex": "^[ ]File \"(...?)\", line ([0-9]*)",    

"selector": "source.python"

Foto 1

Foto 2

Web -Scraping -Fall:

(www.easy2digital.com/topics/ecommerce/)

Die Dinge sind jetzt fertig und wir können Web -Scraping in Erhabenes testen.

Zunächst brauchen wir BeautifulSoup und Anfragen. Beginnen wir also mit der Eingabe

from bs4 import BeautifulSoup

import requests

Im Folgenden finden Sie eine Variable, die anfordert, HTML -Quelltextdaten meines Abschnitts für Website -E -Commerce -Artikel zu erhalten

source = requests.get('https://www.easy2digital.com/topics/ecommerce/').text

Dann können wir diese Quellcodeinformationen in BeautifulSoup analysieren und ausdrucken.

soup = BeautifulSoup(source,'lxml')

print(soup.prettify())

Last but not least, we input command B to run the coding and as you can see, all source codes of the page are generated. This data is still not helpful because we need to create lines of code to specifically scrape the division data that we need.

Abgesehen davon, dass eine Web -Scraping -Umgebung eines erhabenen Texteditors bereits funktioniert und wir die Codes basierend auf dem Ziel in einem erhabenen Texteditor abkratzen und schreiben möchten.

Ich hoffe, Sie lesen gerne Kapitel 2: Web -Scraping mit BeautifulSoup, Anfragen, erhabener Text. Wenn Sie dies getan haben, unterstützen Sie uns bitte, indem Sie eines der unten aufgeführten Dinge tun, da dies immer unserem Kanal hilft.

  • Support and donate to our channel through PayPal (paypal.me/Easy2digital)
  • Subscribe to my channel and turn on the notification bell Easy2Digital Youtube channel.
  • Follow and like my page Easy2Digital Facebook page
  • Teilen Sie den Artikel in Ihrem sozialen Netzwerk mit dem Hashtag #Easy2Digital mit
  • Buy products with Easy2Digital 10% OFF Discount code (Easy2DigitalNewBuyers2021)
  • Sie melden sich für unseren wöchentlichen Newsletter an, um die neuesten Artikel, Videos und Rabattcodes für Easy2Digital zu erhalten
  • Subscribe to our monthly membership through Patreon to enjoy exclusive benefits (www.patreon.com/louisludigital)

Wenn Sie an Kapitel 3 interessiert sind, lesen Sie bitte den Artikel unten

Kapitel 3: Verwenden Sie das CSV -Modul, um CSV -Dateien zu schreiben, zu analysieren, zu lesen, um abgekratzte Daten zu verwalten

Inhaltsverzeichnis: