상점, 제품 데이터를위한 키워드를 사용한 tmall & taobao 스크레이퍼

이 장에서는 tmall 및 taobao 스크레이퍼를 구축하기 위해 알아야하고 사용해야하는 모든 도구와 요소를 안내합니다.

Tmall과 Taobao는 건식 제품에서 습식 제품에 이르기까지 거의 모든 제품 카테고리를 위해 중국에서 가장 큰 온라인 B2C 및 C2B 마켓 플레이스입니다. 아마존은 전 세계적으로 판매 할 제품을 찾고 있거나 대상 시장에서 비즈니스 점유율을 방어하고 있다면 영감을주는 등대입니다. 중국에서는 Tmall과 Taobao가 가서 탐험 해야하는 곳입니다. 기본적으로 무엇이든 찾을 수 있습니다.

In this chapter, I would walk you through creating a Tmall and Taobao product scraper that facilitates you to investigate or build an automatic pricing monitor. By the end of this chapter, you can learn all the tools and elements you need to know and use for building a Tmall and Taobao product scraper. Then, you can flexibly plug these data into your dashboard or P&L calculator.

Table of Contents: Tmall & Taobao Scraper

Taobao/Tmall과 Amazon Product Scraper의 차이점은 무엇입니까?

Selenium is also the key component to build the Taobao and Tmall product scraper, as well as the Amazon product scraper we walked through earlier. In China, digital platforms often require different verifications, such as SMS, manual swipe, face ID, personal ID, etc. Particularly Chinese digital channels are very strict about suspicious robot crawling. Basically, most platforms have built up a more or less immune system resisting robots.

로봇이 중국의 위 사진에 표시된이 도전을 발견 할 수 있다는 것은 정상입니다. 웨스턴 채널 검증과는 달리 수동 조치가 필요할뿐만 아니라 시간마다 변경됩니다. 따라서 기본적으로 스크립트는 변경 사항이 업데이트되면 실제로 조정이 필요합니다. 이런 종류의 방법론은 China Douyin, Zhihu 등으로 출시 될 수 있습니다.

In this article, we would mainly showcase web driver detection and actionchain() for manual swipe verification.

Taobao Scraper – ChromeOption() setting

Taobao와 Tmall의 경우 트래픽을 감지하고 인간의 인간 또는 로봇이있는 경우 자동으로 정당화하기 위해 JavaScript를 설정했기 때문입니다.

Normally, if a user logins into her or his Taobao, or Tmall account, the javascript would show the behavior is undefined under window.navigator.webdriver. That means it’s not a robot

그러나이 동작이 WebDriver에 의해 제어되고 Taobao에 의해 제어되는 경우에도 사실을 보여줍니다. 그리고 Tmall은 이것을 다른 크롤링 저항 절차로 바꿀 것입니다.

따라서 첫 번째는 먼저 긁는 행동이 실제 사용자 조치 인 척하는 것입니다. 이를 위해서는 크롬 옵션 설정에 추가 코드를 추가해야합니다.

이 설정에서는 크롬 브라우저 환경을 단순화 된 중국어로 설정하는 것이 좋습니다. 따라서 Taobao와 Tmall은 해외 시장의 사용자라고 의심하지 않습니다.

그런 다음 이들은 로봇 스크레이퍼로 감지되는 핵심 구성 요소입니다.

마지막으로, 웹 로딩 속도를 높이기 위해 모든 이미지 로딩을 일시 중지하는 코딩을 추가하는 것이 좋습니다. 결국, 당신의 목표는 그 사진을위한 것이 아닙니다.

Taobao Scraper – 잡을 수있는 제품 데이터

Taobao 제품 및 품목의 긁힌 데이터와 관련하여 상점 이름, 제품 사진, 제품 페이지 URL, 제목, 가격 및 총 판매가 있습니다.

Tmall 데이터 세트에서는 Taobao와 매우 유사합니다. 고객 검토 번호 인 고유 한 데이터 메트릭이 있습니다. 판매를 검토 번호와 비교할 수 있습니다.

Taobao Scraper – Taobao 및 Tmall 제품 데이터 경로

Taobao 및 TMALL SERP HTML 및 CSS 코딩은 다릅니다. 예를 들어 Tmall을 가져갈 것입니다.

First thing first, it’s the SERP page URL structure. As it’s a keyword-based scraping, you need to know how to create a URL with changeable query parameters. What’s more, you might not only aim to scrape the 1st page SERP. Below are the samples of the Swans products in Taobao. And as each page has 60 products, so each pagination needs to add on 60. For example, s=60 means it’s the 2nd page. S=120 means the 3rd page.

https://list.tmall.com/search_product.htm?q=swans
https://list.tmall.com/search_product.htm?q=swans&s=60
https://list.tmall.com/search_product.htm?q=swans&s=120

둘째, 각 SERP에는 이와 같은 60 개의 제품 품목 블록이 있습니다. Python 스크립트에서 루프를 만들 때이 데이터 경로를 사용하여 모든 블록을 잠글 수 있습니다.

results = soup.find_all('div',{'class': 'product-iWrap'})

마지막으로, 우리는 결과 데이터에 대한 다른 루프 라이딩을 만들고 비즈니스 목적에 필요한 데이터를 특별히 긁어 내야합니다. 여기서는 제품 제목, URL, 상점 이름, 월별 판매 및 가격을 선택합니다.

title = tag.find('p',{'class': 'productTitle'}).text.strip()
url = tag.find('a',{'class': 'productImg'})['href']
Shopname = tag.find('a',{'class': 'productShop-name'}).text.strip()
monthlySales = tag.find('p',{'class': 'productStatus'}).text.strip()
price = tag.find('p',{'class': 'productPrice'}).text.strip()

Action chain () needed for Tmall Scraper

Unlike Taobao, Tmall has a more strict login process. It’s because it must have a manual swipe verification step. Meanwhile, Taobao is more like the Instagram scraper I walked you through earlier. It can directly direct you to the SERP page after you login in.

다행히도 셀레늄은 매우 강력합니다. 스크롤이 위로 올라가서 아래로 스크롤 할뿐만 아니라 기능을 스크롤합니다. 또한 액션 체인 기능을 사용하여 수평으로 스 와이프 할 수 있습니다.

먼저, 파이썬 스크립트의 시작 부분 에서이 모듈을 가져와야합니다.

from selenium.webdriver.common.action_chains import ActionChains

그런 다음 제품 항목의 데이터 경로를 찾는 것뿐만 아니라 스 와이프 위치의 위치를 ​​식별하고 셀레늄을 사용하여 경로를 잠그십시오.

slider = driver.find_element_by_id('nc_1_n1z')

마지막으로, 우리는 액션 체인 기능과 실제 사용자가 완료 한 작업을 자극하기 위해 더 많은 방법을 사용할 수 있습니다. 페이지로드가 느리기 때문에 로그인 한 후 타이머를 설정하는 것이 더 낫다는 것을 친절하게 상기시켜주십시오. IP가 Taobao에 의해 블랙리스트에 올랐을 때 로봇 IP로 설정할 수있는 경우.

log_in = WebDriverWait(driver,10).until(EC.element_to_be_clickable((By.CSS_SELECTOR,"button[type='submit']"))).click()
time.sleep(15)

ActionChains(driver).click_and_hold(slider).move_by_offset(300, 0).pause(5).release().perform()

Taobao Scraper -이 데이터의 비즈니스 가치는 얼마입니까?

Amazon Product Scraper와 마찬가지로 Tmall 및 Taobao Product Scraper는 시장 기회와 경쟁 환경을 배울 수있는 큰 비즈니스 가치가 있습니다. 판매 및 가격 책정 데이터에서 기본적으로 AVG 가격과 판매 전략이 무엇인지 이해할 수 있습니다. 여기에서 비슷한 제품 가치를 판매하는 경쟁 업체 수를 배울 수 있습니다. 아마존 비즈니스를 위해 실시간 가격 모니터를 만들 수 있습니다.

또한 브랜드의 가짜 및 리퍼브 브랜드 제품을 찾는 데 매우 유용한 접근 방식입니다. Alibaba는이 가짜 브랜드 상점을 적극적으로 블랙리스트에 올렸지 만 Taobao와 Tmall에서도 매우 인기가 있습니다. 그러나 귀하의 비즈니스가 외국 브랜드라면 여전히 어려운 일입니다. 법인과 상표가 서부 국가 시스템과 연결되지 않기 때문입니다. 따라서 브랜드 비즈니스 등록 및 거래 시장 가입이 완료되었지만 중국에서 합법적이라는 의미는 아닙니다. 따라서 중국의 검열, 문서화 및 시작 비용에 관한 모든 것이 있습니다.

Full Python Script of Taobao & Tmall Product Scraper

If you would like to have the full version of the Python Script of Tmall & Taobao Product Scraper, please subscribe to our newsletter by adding the message “Chapter Tutorial 22”. We would send you the script immediately to your mailbox.

문의하기

I hope you enjoy reading Chapter 22: Tmall & Taobao Product Scraper Using Keywords to Fetch Item Data. If you did, please support us by doing one of the things listed below, because it always helps out our channel.

  • Support and donate to our channel through PayPal (paypal.me/Easy2digital)
  • Subscribe to my channel and turn on the notification bell Easy2Digital Youtube channel.
  • Follow and like my page Easy2Digital Facebook page
  • 해시 태그 #easy2digital과 소셜 네트워크의 기사를 공유하십시오.
  • Buy products with Easy2Digital 10% OFF Discount code (Easy2DigitalNewBuyers2021)
  • Easy2Digital 최신 기사, 비디오 및 할인 코드를 받으려면 주간 뉴스 레터에 가입하십시오.
  • Subscribe to our monthly membership through Patreon to enjoy exclusive benefits (www.patreon.com/louisludigital)

자주하는 질문:

Q1 : Taobao 제품 스크레이퍼는 무엇입니까?

A : Taobao Product Scraper는 인기있는 중국 전자 상거래 플랫폼 인 Taobao에서 제품 데이터를 추출 할 수있는 도구입니다.

Q2 : Taobao 제품 스크레이퍼는 어떻게 작동합니까?

A : Taobao Product Scraper는 웹 스크래핑 기술을 사용하여 Taobao 제품 페이지에서 제목, 가격, 설명 및 이미지와 같은 제품 정보를 추출하여 작동합니다.

Q3 : Taobao Product Scraper에서 추출한 데이터로 무엇을 할 수 있습니까?

A : Taobao Product Scraper를 사용하여 데이터를 추출한 후에는 시장 조사, 경쟁사 분석, 가격 비교, 재고 관리 등과 같은 다양한 목적으로 데이터를 사용할 수 있습니다.

Q4 : Taobao 제품 스크레이퍼는 합법적입니까?

A : 웹 스크래핑은 일반적으로 합법적이지만 특정 웹 사이트를 긁는 합법성은 다를 수 있습니다. Taobao 제품 스크레이퍼를 사용하기 전에 Taobao 서비스 약관을 검토하고 준수하는 것이 중요합니다.

Q5 : 여러 Taobao 매장에서 제품 데이터를 긁어 낼 수 있습니까?

A : 그렇습니다. Taobao 제품 스크레이퍼를 사용하면 여러 Taobao 매장에서 제품 데이터를 긁어 낼 수 있습니다. 검색 키워드를 긁거나 사용하려는 상점의 URL을 지정하여 여러 상점에서 제품을 긁어 내고 있습니다.

Q6 : Taobao Product Scraper는 제품 리뷰 및 등급을 스크래핑하는 지원을 지원합니까?

A : 그렇습니다. Taobao Product Scraper는 다른 제품 데이터와 함께 제품 리뷰 및 등급을 추출 할 수 있습니다. 이것은 고객 피드백과 제품에 대한 감정을 분석하는 데 유용 할 수 있습니다.

Q7 : Taobao 제품 스크레이퍼로 자동 스크랩을 예약 할 수 있습니까?

A : 그렇습니다. Taobao Product Scraper는 스크래핑 프로세스를 자동화 할 수있는 스케줄링 옵션을 제공합니다. 스크래핑을위한 정기적 인 간격을 설정하거나 스크래핑을위한 특정 시간 일정을 잡을 수 있습니다.

Q8 : 스크랩 된 데이터를 어떤 형식으로 내보낼 수 있습니까?

A : Taobao Product Scraper는 CSV, Excel, JSON 또는 사용자 정의 형식과 같은 다양한 형식으로 긁힌 데이터를 내보내는 것을 지원합니다. 귀하의 요구에 가장 적합한 형식을 선택할 수 있습니다.

Q9 : Taobao 제품 스크레이퍼 초보자가 친숙합니까?

A : 그렇습니다. Taobao Product Scraper는 사용자 친화적이며 초보자가 액세스 할 수 있도록 설계되었습니다. 스크래핑 작업을 쉽게 구성하고 실행할 수있는 간단하고 직관적 인 인터페이스를 제공합니다.

Q10 : Taobao 제품 스크레이퍼는 고객 지원을 제공합니까?

A : 그렇습니다. Taobao Product Scraper는 도구를 사용하는 동안 발생할 수있는 질문이나 문제를 지원하는 고객 지원을 제공합니다. 지원 팀에 도움을 요청할 수 있습니다.