2023 Web -Scraping mit BeautifulSoup, Anfragen und Python

0

Gehen Sie durch die Erstellung eines Web -Scraping -Bots, indem Sie BeautifulSoup, Anfragen, Erhabene und Python verwenden. Hör zu

Im vorherigen Kapitel 1 haben wir diskutiert, wie ein digitaler Vermarkter von Python -Supermächten profitieren kann. Wir haben gelernt, warum sie oder er es braucht und wie man die neueste Python -Version für Mac OS installiert und einrichtet. Wie Sie vielleicht wissen, besteht einer der wichtigsten Python -Vorteile für digitale Vermarkter darin, Webdaten zu kratzen und die Daten automatisch zu aktualisieren.

In diesem Python -Tutorial werde ich darüber sprechen, wie ich eine Umgebung einrichten kann, um Python -Skripte zu schreiben, um objektive Website -Daten zu kratzen. Dieser Artikel geht nicht auf Details zur Einführung von Python -Methoden, zum Schreiben von Code und zur Fütterung der Daten in eine Tabelle oder Datenbank. Ich werde andere Artikel und Videos veröffentlichen, um durchzugehen. Der Zweck dieses Artikels ist es jedoch, Sie das Gesamtbild verstehen zu lassen. Sie können lernen, welche Komponenten notwendig sind und wie es funktioniert.

Am Ende dieses Kapitels können Sie die Installation von BeautifulSoup4, Anfragen, LXML, HTML5LIB und Sublime Text beherrschen. Und Sie können lernen, wie Sie Webdaten von ihnen abkratzen.

Inhaltsverzeichnis: Web -Scraping mit BeautifulSoup, Anfragen, Python

  • BeautifulSoup4
  • Anfragen
  • Erhabener Texteditor
  • Web -Scraping -Fall: www.easy2digital/blog

BeautifulSoup4

Schöne Suppe ist eine Bibliothek, die es einfach macht, Informationen von Webseiten abzukratzen. Es befindet sich auf einem HTML- oder XML -Parser und bietet pythonische Redewendungen. Sie sind zum Ierieren, Suchen und Ändern des Parse Tree.

Die Installation von BeautifulSoup4 ist nicht komplex. Im Folgenden finden Sie die Schritte
  1. Gehen Sie zu pypi.org und laden Sie die neueste Version BeautifulSoup4-4.3 herunter
  2. Öffnen Sie das Mac -Terminal und geben Sie ein

CD -Desktop

(Hinweis: Desktop bezeichnet den wunderschönen Dateispeicherort, den Sie speichern)

CD BeautifulSoup4-4.9.3

sudo python3 ./setup.py installieren

  1. Überprüfen Sie, ob Sie BeautifulSoup4 erfolgreich installieren

Eingabe: PIP3 installieren Sie BeautifulSoup4. Wenn der Rückgabewert eine bereits erfüllte Anforderung ist, bedeutet dies, dass die Installation durchgeführt wird.

Sobald es installiert ist, müssen wir sicherstellen, dass wir Parser haben, um die HTML zu analysieren. Parser sind unerlässlich, um die Daten zu kratzen und das korrekte Rückgabeergebnis zu erhalten. Grundsätzlich liegt es daran, dass die objektiven HTML -Seiteninformationen wichtig sind. Wenn die Zielseitenstrukturen in perfekter Form eingebaut sind, gibt es keinen Unterschied zwischen den Parsers. Wenn die Zielseitenstrukturen jedoch Fehler aufweisen, können verschiedene Parser die fehlenden Informationen unterschiedlich ausfüllen und sicherstellen, dass das Rückgabeergebnis korrekt ist.

In BeautifulSoup4 -Dokumentation gibt es einen Abschnitt, der den Unterschied zwischen Parser erklärt. Im Grunde empfehlen sie jedoch, den LXML -Parser- und HTML5LIB -Parser zu installieren und zu verwenden. Hier zeige ich also, wie man es in einem Mac -Terminal installiert:

PIP3 Installieren Sie LXML

PIP 3 Installieren Sie HTML5LIB

Anfragen

Sie können Anfragen verwenden, um HTTP- oder HTTPS -Anforderungen einfach zu stellen. Es ist, weil es eine Python -Bibliothek ist. Grundsätzlich ist es der Hauptzweck, die objektiven Daten aufzurufen und auf Ihrem Bildschirm zu zeigen, indem Sie ein Python -Skript ausführen. Es funktioniert, wenn Sie eine URL in einem Browser eingeben, um die Seite zu öffnen. Im Allgemeinen haben Anfragen zwei Hauptanwendungsfälle, die Anfragen an eine API stellen und RAW -HTML -Inhalte von Websites (d. H. Scraping) erhalten.

Die Anfragen sind ziemlich einfach, unten sind die Schritte aufgeführt

Öffnen Sie das MAC -Terminal.

  • Eingabe: PIP3 Installieren Sie Anforderungen. Bitte denken Sie daran, PIP3 zu verwenden, wenn Sie den Alias ​​nicht zwischen Ihrer Mac Python -Version erstellt haben. Und die neueste Python3 -Version, die ich hier als Beispiel verwende. Andernfalls kann dies zu einer Installation auf dem falschen Ordnerpfad führen.
    Warten Sie und prüfen Sie, ob Anfragen erfolgreich installiert werden, einschließlich des Datums und der verwandten Versionsinformationen.

Erhabener Texteditor

Sublime Text ist eine shareware-plattformübergreifende Quellcode-Editor mit einer Python Application Programming Interface (API) kostenlos. Es unterstützt nativ viele Programmiersprachen und Markup -Sprachen. Und die Funktionen können von Benutzern mit Plugins hinzugefügt werden, in der Regel unter der Community gebaut und unter kostenlosen Softwarelizenzen gepflegt.

Es gibt viele kostenlose Redakteure wie Atome usw. Sie können eine andere ähnliche Software verwenden, wenn Sie bereits eine haben. Ich nehme den erhabenen Text als Beispiel, um Sie durch das Erstellen von Skripten und die Kratzen von Webdaten zu führen.

  1. Überprüfen Sie das Build -System und aktualisieren Sie das neueste Python

Wenn Sie in Sublime Text zu Tools und Build -Systemen gehen, finden Sie viele Programmiersprachenoptionen, einschließlich Python. Die Standard -Python -Version wird jedoch möglicherweise nicht aktualisiert. Wie Sie aus dem folgenden Screencap sehen können, wählen wir Python aus und geben einen einzelnen Zeilencode ein. Anstelle des neuesten Python3 zeigt Python 2.7 an, anstatt das neueste Python3

Importsystem

drucken (sys.version)

Foto 1

Foto 2

  1. Fügen Sie ein neues Python3 -Build -System hinzu

Hinzufügen eines Build -Systems und das Skript zeigt eine Codezeile:

"Shell_cmd": "Make"

Ersetzen Sie es durch die folgenden Codes und speichern Sie es. Jetzt haben Sie die neueste Python3 -Version installiert und können überprüfen, indem Sie Import -Systeme, Druck (sys. Version) eingeben, eingeben.

"CMD": ["Python3", "-i", "-u", "$ file"],

"Datei_regex": "^[] Datei \" (...?) \ ", Zeile ([0-9]*)",

"Selector": "Source.Python"

Foto 1

Foto 2

Web -Scraping -Fall:
(www.easy2digital.com/topics/ecommerce/)

Die Dinge sind jetzt fertig und wir können Web -Scraping in Erhabenes testen.

Zunächst brauchen wir BeautifulSoup und Anfragen. Beginnen wir also mit der Eingabe

Aus BS4 Import BeautifulSoup

Anfragen importieren

Im Folgenden finden Sie eine Variable, die anfordert, HTML -Quelltextdaten meines Abschnitts für Website -E -Commerce -Artikel zu erhalten

Source = Requests.get ('http://www.easy2digital.com/topics/ecommerce/') .text

Dann können wir diese Quellcodeinformationen in BeautifulSoup analysieren und ausdrucken.

Suppe = BeautifulSoup (Quelle, 'lxml')

print (Suppe.Prettify ())

Zu guter Letzt geben wir den Befehl B ein, um die Codierung auszuführen, und wie Sie sehen können, werden alle Quellcodes der Seite generiert. Diese Daten sind immer noch nicht hilfreich, da wir Codezeilen erstellen müssen, um die von uns benötigten Teilungsdaten spezifisch abzukratzen.

Abgesehen davon, dass eine Web -Scraping -Umgebung eines erhabenen Texteditors bereits funktioniert und wir die Codes basierend auf dem Ziel in einem erhabenen Texteditor abkratzen und schreiben möchten.

  • Unterstützen Sie unseren Kanal durch Spenden über PayPal (paypal.me/Easy2digital)
  • Abonnieren Sie meinen Kanal und schalten Sie die Benachrichtigungsglocke ein Easy2Digital Youtube Kanal.
  • Folgen Sie und liken Sie unsere Seite Easy2Digital Facebook Seite
  • Teilen Sie den Artikel in Ihrem sozialen Netzwerk mit dem Hashtag #easy2digital
  • Melden Sie sich für unseren wöchentlichen Newsletter an, um die neuesten Artikel, Videos und Rabattcodes von Easy2Digital zu erhalten
  • Abonnieren Sie unsere monatliche Mitgliedschaft über Patreon, um exklusive Vorteile zu genießen (www.patreon.com/louisludigital)

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert