2023 Mengikis Web dengan Beautifulsoup, Permintaan dan Python
Walk You melalui cara membangun bot pengikis web dengan menggunakan BeautifulSoup, permintaan, luhur, dan python. Coba lihat

In the previous Chapter 1, we discussed how a digital marketer can benefit from Python superpowers. We learned why she or he needs it, and how to install and set up the latest Python version for Mac OS. As you might be aware, one of the most essential Python benefits to digital marketers is to scrape web data and update the data automatically.
Jadi dalam tutorial Python ini, saya akan berbicara tentang cara mengatur lingkungan untuk menulis skrip Python untuk tujuan mengikis data situs web objektif. Artikel ini tidak membahas perincian tentang Penyangka Metode Python, menulis kode, dan memberi makan data ke spreadsheet atau database. Saya akan merilis artikel dan video lain untuk dilalui. Tetapi tujuan artikel ini adalah untuk membuat Anda memahami gambaran besarnya. Anda dapat mempelajari komponen apa yang diperlukan dan cara kerjanya.
Pada akhir bab ini, Anda dapat menguasai instalasi indah, permintaan, lxml, html5lib, dan teks luhur. Dan Anda dapat belajar cara mengikis data web dari mereka.
DAFTAR ISI: Mengikis web dengan cantik, permintaan, python
Beautifulsoup4
Sup indah adalah perpustakaan yang membuatnya mudah untuk mengikis informasi dari halaman web. Itu duduk di atas parser HTML atau XML, memberikan idiom pythonic. Mereka untuk mengulangi, mencari, dan memodifikasi pohon parse.
Menginstal Beautifulsoup4 tidak rumit, di bawah ini adalah langkah -langkahnya
1. Pergi ke pypi.org dan unduh versi terbaru Beautifulsoup4-4.9.3
2. Buka terminal Mac, dan input
cd Desktop
(Catatan: Desktop berarti lokasi file yang indah yang Anda simpan)
cd beautifulsoup4-4.9.3
sudo python3 ./setup.py install
3. Periksa apakah Anda berhasil menginstal Beautifulsoup4
Input: PIP3 Instal Beautifulsoup4. Jika nilai pengembalian adalah persyaratan yang sudah dipenuhi, itu berarti instalasi dilakukan.
Setelah dipasang, kita perlu memastikan bahwa kita memiliki parser untuk menguraikan HTML. Parser sangat penting untuk mengikis data dan mendapatkan hasil pengembalian yang benar. Pada dasarnya, itu karena informasi halaman HTML tujuan penting. Jika struktur halaman target dibangun dalam bentuk yang sempurna, tidak ada perbedaan antara parser. Tetapi jika struktur halaman target memiliki kesalahan, parser yang berbeda dapat mengisi informasi yang hilang secara berbeda dan memastikan hasil pengembalian benar.
In BeautifulSoup4 documentation, there is a section that explains the difference among parsers. But basically, they suggest installing and using the lxml parser and html5lib parser. So here I show how to install it in a Mac terminal:
Pip3 install lxml
Pip 3 install html5lib
Permintaan
You can use Requests to easily make HTTP or HTTPS requests. It’s because it is a Python library. Basically, its primary purpose is to call the objective data and show it on your screen by running a Python script. It is functioning as you type in a URL on a browser to open the page. Generally, Requests have two main use cases, making requests to an API and getting raw HTML content from websites (i.e., scraping).
Permintaan instal cukup mudah, di bawah ini adalah langkah -langkahnya

- Buka terminal Mac.
- Input: Pip3 Instal Permintaan. Harap ingat untuk menggunakan PIP3 jika Anda belum membuat alias antara versi Mac Python Anda. Dan versi Python3 terbaru yang saya gunakan di sini sebagai contoh. Kalau tidak, itu dapat menyebabkan instalasi di jalur folder yang salah.
- Tunggu dan lihat apakah permintaan berhasil diinstal, yang mencakup tanggal dan informasi versi terkait.
Editor Teks Sublime
Sublime Text is a shareware cross-platform source code editor with a Python application programming interface (API) for free. It natively supports many programming languages and markup languages. And the functions can be added by users with plugins, typically community-built and maintained under free software licenses.
Ada banyak editor gratis yang tersedia seperti ATOME, dll. Anda dapat menggunakan perangkat lunak serupa lainnya jika Anda sudah memilikinya. Saya akan mengambil teks luhur sebagai contoh untuk memandu Anda melalui cara menggunakannya untuk membuat skrip dan mengikis data web.
1. Periksa sistem build dan perbarui python terbaru
Dalam teks luhur, jika Anda pergi ke alat dan membangun sistem, Anda dapat menemukan banyak opsi bahasa pemrograman yang tersedia, termasuk Python. Namun, versi Python default mungkin tidak diperbarui. Seperti yang dapat Anda lihat dari screencap di bawah ini, kami memilih Python dan memasukkan kode baris tunggal, dan itu menunjukkan Python 2.7, bukan Python3 terbaru
Import sys
print(sys.version)
Foto 1
Foto 2

2. Tambahkan sistem build python3 baru
Menambahkan sistem build dan skrip menunjukkan baris kode:
“Shell_cmd”: “make”
Ganti dengan kode di bawah ini dan simpan. Sekarang Anda telah menginstal versi Python3 terbaru, dan Anda dapat memeriksa dengan memasukkan Impor SYS, Print (Sys. Version)
"cmd": ["python3", "-i", "-u", "$file"],
"file_regex": "^[ ]File \"(...?)\", line ([0-9]*)",
"selector": "source.python"
Foto 1

Foto 2
Kasing Mengikis Web:
(www.easy2digital.com/topics/ecommerce/)
Segalanya sudah siap sekarang, dan kita dapat menguji pengikisan web di Sublime.
Pertama -tama, kita membutuhkan cantik dan permintaan, jadi mari kita mulai dengan memasukkan
from bs4 import BeautifulSoup
import requests
Dan kemudian di bawah ini adalah variabel yang meminta untuk mendapatkan data teks sumber html dari situs artikel eCommerce situs web saya
source = requests.get('https://www.easy2digital.com/topics/ecommerce/').text
Kemudian, kita dapat menguraikan informasi kode sumber ini ke dalam BeautifulSoup dan mencetaknya.
soup = BeautifulSoup(source,'lxml')
print(soup.prettify())
Last but not least, we input command B to run the coding and as you can see, all source codes of the page are generated. This data is still not helpful because we need to create lines of code to specifically scrape the division data that we need.

Dikatakan bahwa, lingkungan pengikis web oleh editor teks yang luhur sudah berfungsi, dan masalahnya adalah kami bertujuan untuk mengikis dan menulis kode berdasarkan tujuan dalam editor teks yang agung.
Saya harap Anda menikmati membaca Bab 2: Mengikis web dengan cantik, permintaan, teks luhur. Jika Anda melakukannya, harap dukung kami dengan melakukan salah satu hal yang tercantum di bawah ini, karena selalu membantu saluran kami.
- Support and donate to our channel through PayPal (paypal.me/Easy2digital)
- Subscribe to my channel and turn on the notification bell Easy2Digital Youtube channel.
- Follow and like my page Easy2Digital Facebook page
- Bagikan artikel di jejaring sosial Anda dengan tagar #Easy2Digital
- Buy products with Easy2Digital 10% OFF Discount code (Easy2DigitalNewBuyers2021)
- Anda mendaftar untuk buletin mingguan kami untuk menerima artikel, video, dan kode diskon Easy2Digital terbaru
- Subscribe to our monthly membership through Patreon to enjoy exclusive benefits (www.patreon.com/louisludigital)
Jika Anda tertarik dengan Bab 3, silakan periksa artikel di bawah ini
Bab 3: Memanfaatkan modul CSV untuk menulis, parse, baca file CSV untuk mengelola data yang dikikis