2024 Stracage du Web avec BeautifulSoup, Demandes et Python

Vous guider à travers comment construire un bot de grattage Web en utilisant BeautifulSoup, Demandes, Sublime et Python. Vérifiez-le

In the previous Chapter 1, we discussed how a digital marketer can benefit from Python superpowers. We learned why she or he needs it, and how to install and set up the latest Python version for Mac OS. As you might be aware, one of the most essential Python benefits to digital marketers is to scrape web data and update the data automatically. 

Donc, dans ce didacticiel Python, je vais parler de la façon de configurer un environnement pour écrire des scripts Python dans le but de gratter les données du site Objectif. Cet article n’entre pas dans les détails concernant l’introduction des méthodes Python, la rédaction de code et l’alimentation des données à une feuille de calcul ou à une base de données. Je publierai d’autres articles et vidéos à parcourir. Mais le but de cet article est de vous permettre de comprendre la vue d’ensemble. Vous pouvez apprendre quels composants sont nécessaires et comment cela fonctionne.

À la fin de ce chapitre, vous pouvez maîtriser l’installation de BeautifulSoup4, demandes, LXML, HTML5LIB et Sublime Text. Et vous pouvez apprendre à leur enlever les données Web.

Table des matières: gratte sur le Web avec BeautifulSoup, Demandes, Python

BeautifulSoup4

La belle soupe est une bibliothèque qui facilite la réduction des informations des pages Web. Il se trouve au sommet d’un analyseur HTML ou XML, fournissant des idioms pythoniques. Ils sont pour itérer, rechercher et modifier l’arbre de l’analyse.

L’installation de BeautifulSoup4 n’est pas complexe, voici les étapes

1. Allez sur PYPI.org et téléchargez la dernière version BeautifulSoup4-4.9.3

2. Ouvrez le terminal Mac et entrez

cd Desktop

(Remarque: le bureau signifie l’emplacement du fichier BeautifulSoup4 que vous enregistrez)

cd beautifulsoup4-4.9.3

sudo python3 ./setup.py install

3. Vérifiez si vous installez BeautifulSoup4 avec succès

Entrée: PIP3 Installez BeautifulSoup4. Si la valeur de retour est une exigence déjà satisfaite, cela signifie que l’installation est effectuée.

Une fois installé, nous devons nous assurer que nous avons des analyseurs pour analyser le HTML. Les analyseurs sont essentiels pour gratter les données et obtenir le résultat de retour correct. Fondamentalement, c’est parce que les informations d’objectif de la page HTML sont importantes. Si les structures de la page cible sont construites sous une forme parfaite, il n’y a pas de différence entre les analyseurs. Mais si les structures de la page cible ont des erreurs, différents analyseurs peuvent remplir les informations manquantes différemment et s’assurer que le résultat de retour est correct.

In BeautifulSoup4 documentation, there is a section that explains the difference among parsers. But basically, they suggest installing and using the lxml parser and html5lib parser. So here I show how to install it in a Mac terminal:

Pip3 install lxml

Pip 3 install html5lib

Demandes

You can use Requests to easily make HTTP or HTTPS requests. It’s because it is a Python library. Basically, its primary purpose is to call the objective data and show it on your screen by running a Python script. It is functioning as you type in a URL on a browser to open the page. Generally, Requests have two main use cases, making requests to an API and getting raw HTML content from websites (i.e., scraping).

Installer les demandes est assez facile, ci-dessous les étapes

  1. Ouvrez le terminal Mac.
  2. Entrée: PIP3 Installer les demandes. N’oubliez pas d’utiliser PIP3 si vous n’avez pas créé l’alias entre votre version Mac Python. Et la dernière version Python3 que j’utilise ici comme exemple. Sinon, cela pourrait entraîner une installation sur le mauvais chemin de dossier.
  3. Attendez et voyez si les demandes sont installées avec succès, ce qui comprend la date et les informations de version associées.

Éditeur de texte sublime

Sublime Text is a shareware cross-platform source code editor with a Python application programming interface (API) for free. It natively supports many programming languages and markup languages. And the functions can be added by users with plugins, typically community-built and maintained under free software licenses

Il existe de nombreux éditeurs gratuits disponibles tels que Atome, etc. Vous pouvez utiliser un autre logiciel similaire si vous en avez déjà un. Je vais prendre un texte sublime à titre d’exemple pour vous expliquer comment l’utiliser pour créer des scripts et gratter les données Web.

1. Vérifiez le système de construction et mettez à jour le dernier Python

Dans le texte sublime, si vous allez dans des outils et des systèmes de construction, vous pouvez trouver de nombreuses options de langage de programmation disponibles, y compris Python. Cependant, la version Python par défaut peut ne pas être mise à jour. Comme vous pouvez le voir à partir de l’écran ci-dessous, nous sélectionnons Python et entrons un seul code de ligne, et il montre Python 2.7, au lieu du dernier Python3

Import sys

print(sys.version)

Photo 1

Photo 2

2. Ajouter un nouveau système de construction Python3

L’ajout d’un système de construction et le script affiche une ligne de code:

“Shell_cmd”: “make”

Remplacez-le par les codes ci-dessous et enregistrez. Vous avez maintenant installé la dernière version Python3, et vous pouvez vérifier en entrant Import Sys, Print (SYS. Version)

"cmd": ["python3", "-i", "-u", "$file"],    

"file_regex": "^[ ]File \"(...?)\", line ([0-9]*)",    

"selector": "source.python"

Photo 1

Photo 2

Case de grattage sur le Web:

(www.easy2digital.com/topics/ecommerce/)

Les choses sont prêtes maintenant, et nous pouvons tester le grattage Web en sublime.

Tout d’abord, nous avons besoin de belles et de demandes, alors commençons par saisir

from bs4 import BeautifulSoup

import requests

Et puis ci-dessous est une variable qui demande d’obtenir des données de texte source HTML de la section d’article de commerce électronique de mon site Web

source = requests.get('https://www.easy2digital.com/topics/ecommerce/').text

Ensuite, nous pouvons analyser ces informations de code source dans BeautifulSoup et l’imprimer.

soup = BeautifulSoup(source,'lxml')

print(soup.prettify())

Last but not least, we input command B to run the coding and as you can see, all source codes of the page are generated. This data is still not helpful because we need to create lines of code to specifically scrape the division data that we need.

Sayant cela, un environnement de grattage Web par un éditeur de texte sublime fonctionne déjà, et le fait est que nous visons à gratter et à écrire les codes en fonction de l’objectif dans un éditeur de texte sublime.

J’espère que vous apprécierez la lecture du chapitre 2: Stracage du Web avec BeautifulSoup, Demandes, SUBLIME Text. Si vous l’avez fait, veuillez nous soutenir en faisant l’une des choses énumérées ci-dessous, car cela aide toujours notre chaîne.

  • Support and donate to our channel through PayPal (paypal.me/Easy2digital)
  • Subscribe to my channel and turn on the notification bell Easy2Digital Youtube channel.
  • Follow and like my page Easy2Digital Facebook page
  • Partagez l’article sur votre réseau social avec le hashtag # easy2digital
  • Buy products with Easy2Digital 10% OFF Discount code (Easy2DigitalNewBuyers2021)
  • Vous vous inscrivez à notre newsletter hebdomadaire pour recevoir les derniers articles, vidéos et codes de réduction Easy2digital
  • Subscribe to our monthly membership through Patreon to enjoy exclusive benefits (www.patreon.com/louisludigital)

Si vous êtes intéressé par le chapitre 3, veuillez consulter l’article ci-dessous

Chapitre 3: Utilisez le module CSV pour écrire, analyser, lire les fichiers CSV pour gérer les données grattées

Table des matières:

Q1: Qu’est-ce que S

A: 2. Que peut faire S. ?
S. peut faire un large éventail de choses, notamment :

Q2: Que peut faire S

A: 2. Que peut faire S. ?
S. peut faire un large éventail de choses, notamment :