Amazon Product Scraper Menggunakan Selenium, BeautifulSoup, dan API Easy2Digital

0

Dalam bab ini, saya akan berbagi dengan Anda cara membuat scraper produk Amazon dan menyimpan data yang diambil di Google Sheets. Pada akhir bab ini, Anda dapat belajar cara menginstal modul gspread, dan di mana menemukan elemen data dalam HTML

Amazon product information in the search result has great value for you to understand 2 things. They are the sales performance of a product and the customer review on this product and merchant. Then, it can extend to a much wider application, such as the price tracker, and P&L market value.

Dalam bab ini, saya akan berbagi dengan Anda cara membuat pengikis produk Amazon dan menyimpan data yang diambil di Google Sheets. Pada akhir bab ini, Anda dapat belajar cara menginstal modul GSPread, dan di mana menemukan elemen data dalam HTML.

Daftar Isi: Pengikis Produk Amazon Menggunakan Selenium, Beautifulsoup, dan API Easy2Digital

Amazon Product Scraper – Import Selenium, BeautifulSoup, and gspread Module

Itu tidak memungkinkan Anda untuk mengunjungi situs web menggunakan BeautifulSoup dalam skrip Python. Itu akan muncul sebagai hasil dari “maaf, sesuatu yang salah”. Sebaliknya, Anda dapat dengan lancar mengambil data produk karena Anda suka menggunakan selenium. Mengimpor kedua modul ini adalah proses yang sama dengan skrip sebelumnya yang saya lakukan untuk bot lain

Juga, skrip ini tidak hanya untuk mengambil dan menyimpan informasi produk dalam satu lembar. Ini juga bertujuan untuk secara otomatis menyegarkan data dalam jadwal, dan melacak informasi pemasaran pesaing dan harga produk. Untuk pelacak harga, saya akan merilis artikel lain. Karena itu, saya akan merekomendasikan menggunakan Google Sheet API dan mengelola data di lembar Google. Di sini saya merekomendasikan menggunakan GSPread, karena itu membuat segalanya lebih sederhana.

Untuk membuat API Google Sheet dan menyiapkan akun layanan, Anda dapat merujuk ke artikel lain. Saya merilis artikel sebelumnya. Untuk detail lebih lanjut, silakan lihat artikel ini.

Saya akan mengatakan Easy2Digital Google Sheets API jauh lebih mudah untuk terhubung dengan Google API dan mengelola data yang diambil. Hal pertama yang pertama, Anda perlu mengajukan token API Easy2Digital gratis

Kemudian, Anda menyalin nama kunci JSON yang Anda unduh dari akun layanan Google API baru Anda dan menempelkannya ke dalam skrip yang terhubung dengan Easy2Digital API GoogleJsonParameter.

Untuk detail lebih lanjut, silakan merujuk ke dokumentasi API

Dokumentasi API Pemasaran Easy2Digital

Amazon Product Scraper – Buat prototipe Scraper Pencarian Produk

Anda dapat mencari informasi produk apa pun menggunakan kueri pencarian. Pada dasarnya, di bawah ini adalah prototipe pengikis produk Amazon, produk apa pun yang Anda cari. Atau di mana pun pasar Amazon yang Anda cari.

1. Struktur URL Kueri Pencarian Amazon

Anda mungkin menemukan bahwa ada dua parameter dalam URL yang mengendalikan SERP. Salah satunya adalah K diikuti oleh kata kunci. Yang lainnya adalah halaman yang ditindaklanjuti dengan nomor halaman.

https://www.amazon.com/s?k=ring+camera&page=2

Jadi, Anda dapat membuat dua variabel untuk penggunaan nanti. Salah satunya mewakili kata kunci yang Anda cari. Salah satunya adalah untuk melingkar secara dinamis dan mengambil lebih banyak halaman

query = "ring+camera"
page = "&page="

2. Temukan blok informasi produk di SERP

Anda dapat mengklik kanan judul produk apa pun dan menggunakan fungsi Inspect. Anda dapat melihat elemen apa yang dapat menemukan seluruh blok informasi produk. Blok ini mencakup semua informasi produk inti yang ingin Anda ambil. Misalnya, mereka asin, harga, judul, url, jumlah ulasan, dll. Ini mirip dengan pengikisan web yang saya bagikan sebelumnya.

Seperti yang Anda lihat, semua informasi berada di div dan tag bernama tipe komponen data. Jadi Anda dapat menyusun kode seperti ini. Ini untuk mengikis halaman pertama

driver.get("https://www.amazon.com/s?k=query
soup = BeautifulSoup(driver.page_source, 'html.parser')
results = soup.find_all('div',{'data-component-type': 's-search-result'})

3. Pilih tipe data dan gesek secara khusus

ASIN is a key element you must fetch because the price tracker needs this element to connect with your current P&L calculator. I would talk about this in the other article.

Seperti yang Anda lihat, nilai ASIN sedang duduk di tag data-asin ini. Jadi Anda dapat membuat variabel dan menggunakan attrs untuk mendapatkan nomor ASIN setiap produk

asins = item.attrs['data-asin']

Kemudian, judul produk adalah H2 di HTML. Jadi kode Python bisa seperti ini. Namun, untuk menghapus setiap karakter terkemuka (spasi di awal) dan trailing (spasi di akhir) karakter, Anda dapat menggunakan strip () setelah teks

try:
    title = item.h2.a.text.strip()
except Exception as e:
    raise None

Harga adalah elemen kunci lain dalam pelacak harga karena dinamis dan mungkin berubah tergantung pada promosi pesaing Anda. Jadi di pengikis produk Amazon, pengkodean ini dapat membantu Anda mengambil harga. Namun, untuk memfilter dan menghitung nilai pasar nanti, saya akan merekomendasikan Anda menghapus sinyal mata uang. Ini untuk memastikan data dalam format angka di Google Sheets.

try:
   price_parent = item.find('span','a-price')
   price = price_parent.find('span','a-offscreen').text.replace('$','')
except Exception as e:
   price_parent = '0'
   price = '0'

Amazon Product Scraper – Scrape Multi-pages of Search Result

Halaman pertama Amazon Serp memiliki AVG.22 Potongan Produk. Mungkin tidak cukup bagi Anda untuk memahami kinerja dan peluang pasar suatu produk. Dalam hal ini, Anda perlu mengikis lebih dari satu halaman. Untungnya itu tidak rumit, dan mirip dengan pengikis pagination web yang saya bagikan sebelumnya.

Hal pertama yang pertama, Anda perlu membuat loop di tingkat yang lebih tinggi daripada data pengambilan data spesifik. Anda dapat membuat variabel X.

Kemudian, dalam kisaran, Anda dapat mengatur jumlah halaman. Tapi harap diingat bahwa halaman terakhir harus y – 1. Misalnya, di sini halaman terakhir adalah 3, jadi itu berarti halaman terakhir adalah 2.

for x in range (1,3):
    driver.get("https://www.amazon.com/s?k="+query+page+str(x))
    soup = BeautifulSoup(driver.page_source, 'html.parser')
    results = soup.find_all('div',{'data-component-type': 's-search-result'})

         for item in results:

              asins = item.attrs['data-asin']

Last but not least, seperti yang Anda ketahui struktur URL Amazon, kita perlu memperbarui permintaan URL, yang seperti ini.

driver.get("https://www.amazon.com/s?k="+query+page+str(x))

Simpan data yang diambil ke Google Sheets

Sekarang semuanya siap, dan sudah waktunya untuk memberi makan dan menyimpan di lembar Google. Anda perlu menggunakan metode “posting” dan menambahkan data yang diambil dan tab lembar spesifik dengan posisi sel masing -masing sebagai dua variabel ke parameter API Easy2Digital

Skrip Python lengkap dari pengikis produk Amazon

If you would like to have the full version of the Python Script of Amazon Product Scraper, please subscribe to our newsletter by adding the message “Chapter 16”. We would send you the script immediately to your mailbox.

Hubungi kami

Saya harap Anda menikmati membaca Bab 16 – Amazon Product Scraper menggunakan Selenium, Beautifulsoup, dan Easy2Digital API. Jika Anda melakukannya, harap dukung kami dengan melakukan salah satu hal yang tercantum di bawah ini, karena selalu membantu saluran kami.

  • Support and donate to our channel through PayPal (paypal.me/Easy2digital)
  • Subscribe to my channel and turn on the notification bell Easy2Digital Youtube channel.
  • Follow and like my page Easy2Digital Facebook page
  • Bagikan artikel ke jejaring sosial Anda dengan tagar #Easy2Digital
  • Buy products with Easy2Digital 10% OFF Discount code (Easy2DigitalNewBuyers2021)
  • Anda mendaftar untuk buletin mingguan kami untuk menerima artikel, video, dan kode diskon Easy2Digital terbaru
  • Subscribe to our monthly membership through Patreon to enjoy exclusive benefits (www.patreon.com/louisludigital)

Pertanyaan yang Sering Diajukan:

Q1: Apa itu Amazon?
Amazon adalah perusahaan teknologi multinasional Amerika yang berfokus pada e-commerce, komputasi awan, digital streaming, dan kecerdasan buatan

A: 2. Apa saja produk yang dijual di Amazon?
Amazon menjual berbagai macam produk, termasuk buku, elektronik, pakaian, mainan, makanan, dan minuman.

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *