blog details
author


blog detail

Tmall과 Taobao는 건조식품부터 습식식품까지 거의 모든 제품 카테고리를 다루는 중국 최대의 온라인 B2C 및 C2B 마켓플레이스입니다. 전 세계적으로 판매할 제품을 찾고 있거나 목표 시장에서 비즈니스 점유율을 방어하려는 경우 Amazon은 영감을 주는 등대입니다. 중국에서는 티몰(Tmall)과 타오바오(Taobao)가 꼭 가보고 탐험해야 할 곳입니다. 기본적으로 무엇이든 찾을 수 있습니다.

이 장에서는 자동 가격 모니터를 조사하거나 구축하는 데 도움이 되는 Tmall 및 Taobao 제품 스크레이퍼를 만드는 과정을 안내합니다. 이 장을 마치면 Tmall 및 Taobao 제품 스크레이퍼를 구축하는데 알아야 할 모든 도구와 요소를 배울 수 있습니다. 그런 다음 이러한 데이터를 대시보드나 손익 계산기에 유연하게 연결할 수 있습니다.

목차: Tmall & Taobao 스크레이퍼

Taobao/Tmall과 Amazon Product Scraper의 차이점은 무엇입니까?

Selenium은 Taobao 및 Tmall 제품 스크레이퍼는 물론 앞서 살펴본 Amazon 제품 스크레이퍼를 구축하는 핵심 구성 요소이기도 합니다. 중국에서는 디지털 플랫폼에서 SMS, 수동 스와이프, 얼굴 ID, 개인 ID 등과 같은 다양한 인증을 요구하는 경우가 많습니다. 특히 중국 디지털 채널은 의심스러운 로봇 크롤링에 대해 매우 엄격합니다. 기본적으로 대부분의 플랫폼은 로봇에 저항하는 어느 정도 면역 체계를 구축했습니다.

blog detail

중국에서 로봇이 위 사진에 표시된 이러한 문제를 겪을 수 있는 것은 정상입니다. 서양 채널 검증과 달리 수동 조치가 필요할 뿐만 아니라 시간에 따라 변경됩니다. 따라서 기본적으로 변경 사항이 업데이트되면 스크립트를 실제로 조정해야 합니다. 이러한 종류의 방법론은 중국 Douyin, Zhihu 등에 적용할 수 있습니다.

이 기사에서는 주로 수동 스와이프 확인을 위한 웹 드라이버 감지 및 actionchain() 소개합니다.

타오바오 스크레이퍼 – ChromeOption() 설정

Taobao와 Tmall의 경우 트래픽을 감지하고 해당 트래픽이 사람인지 로봇인지 자동으로 정당화하는 자바스크립트를 설정했기 때문입니다.

일반적으로 사용자가 Taobao 또는 Tmall 계정에 로그인하면 자바 스크립트는 window.navigator.webdriver 아래에 동작이 정의되지 않은 것으로 표시합니다. 로봇이 아니라는 뜻이죠

그러나 이 동작이 웹드라이버에 의해 제어된다면 이는 사실로 나타나고 Taobao와 Tmall은 이를 또 다른 크롤링 저항 절차로 전환할 것입니다.

따라서 가장 먼저 해야 할 일은 스크래핑 동작이 실제 사용자 동작인 것처럼 가장하는 것입니다. 이를 위해서는 크롬 옵션 설정에 추가적인 코딩을 추가해야 합니다.

이 설정에서는 크롬 브라우저 환경을 중국어 간체로 설정하여 타오바오나 티몰에서 해외 시장 사용자인지 의심하지 않도록 하는 것이 좋습니다.

그렇다면 로봇 스크래퍼로 감지되는 것을 피하기 위한 핵심 부품은 다음과 같다.

마지막으로 웹 로딩 속도를 높이기 위해 모든 이미지 로딩을 일시 중지하는 코딩을 추가하는 것이 좋습니다. 결국, 당신의 목표는 그 사진을 위한 것이 아닙니다.

Taobao Scraper – 얻을 수 있는 제품 데이터

타오바오 상품 및 상품의 스크랩 가능한 데이터에는 매장명, 상품 사진, 상품 페이지 URL, 제목, 가격, 총 매출 등이 있습니다.

Tmall 데이터세트에서는 Taobao와 매우 유사합니다. 여기에는 고객 리뷰 번호인 하나의 고유한 데이터 측정항목이 있습니다. 리뷰번호와 판매량을 비교할 수 있습니다.

Taobao Scraper – Taobao 및 Tmall 제품 데이터 경로

Taobao와 Tmall SERP html 및 CSS 코딩이 다릅니다. 여기서는 Tmall을 예로 들어 보겠습니다.

먼저 SERP 페이지 URL 구조입니다. 키워드 기반 스크래핑이므로 변경 가능한 쿼리 매개변수를 사용하여 URL을 만드는 방법을 알아야 합니다. 게다가 첫 번째 페이지 SERP를 긁는 것만을 목표로 하는 것이 아닐 수도 있습니다. 아래는 타오바오의 스완 제품 샘플입니다. 그리고 각 페이지에는 60개의 제품이 있으므로 각 페이지 매김마다 60개를 추가해야 합니다. 예를 들어 s=60 은 두번째 페이지를 의미합니다. S=120 세 번째 페이지를 의미합니다.

https://list.tmall.com/search_product.htm?q=swans
https://list.tmall.com/search_product.htm?q=swans&s=60
https://list.tmall.com/search_product.htm?q=swans&s=120

둘째, 각 SERP에는 이와 같은 제품 아이템 블록이 60개 있습니다. Python 스크립트에서 루프를 생성할 때 이 데이터 경로를 사용하여 모든 블록을 잠글 수 있습니다.

results = soup.find_all('div',{'class': 'product-iWrap'})

마지막으로 결과 데이터를 기반으로 또 다른 루프를 생성하고 특별히 비즈니스 목적에 필요한 데이터를 긁어내야 합니다. 여기서는 제품 제목, URL, 상점 이름, 월별 매출 및 가격을 선택합니다.

title = tag.find('p',{'class': 'productTitle'}).text.strip()
url = tag.find('a',{'class': 'productImg'})['href']
Shopname = tag.find('a',{'class': 'productShop-name'}).text.strip()
monthlySales = tag.find('p',{'class': 'productStatus'}).text.strip()
price = tag.find('p',{'class': 'productPrice'}).text.strip()

Tmall Scraper에 필요한 Action chain ()

타오바오와 달리 티몰은 로그인 절차가 더 엄격합니다. 수동으로 스와이프 인증 단계를 거쳐야 하기 때문입니다. 한편, Taobao는 앞서 소개한 Instagram 스크레이퍼 에 더 가깝습니다. 로그인 후 SERP 페이지로 직접 연결될 수 있습니다.

다행히 셀레늄은 매우 강력합니다. 위로 스크롤 및 아래로 스크롤 기능만 있는 것이 아닙니다. 또한 액션 체인 기능을 사용하여 보류 상태에서 가로로 스와이프하는 것도 용이하게 할 수 있습니다.

먼저, Python 스크립트 시작 부분에서 이 모듈을 가져와야 합니다.

from selenium.webdriver.common.action_chains import ActionChains

그런 다음 제품 항목의 데이터 경로를 찾는 것뿐만 아니라 스와이프 위치가 어디에 있는지 식별하고 Selenium을 사용하여 경로를 잠가야 합니다.

slider = driver.find_element_by_id('nc_1_n1z')

마지막으로, 액션 체인 기능과 몇 가지 추가 메서드를 사용하여 실제 사용자가 완료한 액션을 자극할 수 있습니다. 때로는 페이지 로딩이 느려질 수 있으므로 로그인 후 타이머를 설정하는 것이 더 낫다는점을 친절하게 상기시켜주세요. 귀하의 IP가 타오바오에 의해 블랙리스트에 올라 로봇 IP로 설정될 수 있는 경우를 대비해 말이죠.

log_in = WebDriverWait(driver,10).until(EC.element_to_be_clickable((By.CSS_SELECTOR,"button[type='submit']"))).click()
time.sleep(15)

ActionChain. s(driver).click_and_hold(slider).move_by_offset(300, 0).pause(5).release().perform()

Taobao Scraper – 이 데이터의 비즈니스 가치는 무엇입니까?

Amazon 제품 스크레이퍼와 마찬가지로 Tmall 및 Taobao 제품 스크레이퍼는 시장 기회와 경쟁 환경을 배울 수 있는 엄청난 비즈니스 가치를 가지고 있습니다. 판매 및 가격 데이터를 통해 기본적으로평균 가격이 무엇인지, 어떤 판매 전략이 더 인기가 있는지 이해할 수 있습니다. 여기에서 귀하의 제품과 유사한 제품 가치를 판매하는 경쟁업체가 몇 명인지 알 수 있습니다. Amazon 비즈니스를 위해 하는것처럼 실시간 가격 모니터를 만들 수 있습니다.

blog detail

또한, 귀하의 브랜드의 가짜 제품과 리퍼브 브랜드 제품을 찾는 데 매우 유용한 접근 방식입니다. 알리바바는 이러한 가짜 브랜드 매장을 적극적으로 블랙리스트에 올렸지만 타오바오(Taobao)와 티몰(Tmall)에서도 매우 인기가 높습니다. 그러나 귀하의 사업이 외국 브랜드라면 여전히 어려운 일입니다. 법인체나 상표권이 서방국가 시스템과 연결되지 않기 때문이다. 따라서 귀하의 브랜드 사업자 등록 및무역시장 가입이 완료되었다고 해서 중국에서 합법적인 것은 아닙니다. 그래서 중국에서는 검열, 문서화, 시작 비용이 전부라는 말이 있습니다.

Taobao 및 Tmall 제품 스크레이퍼의 전체 Python 스크립트

Tmall & Taobao Product Scraper의 Python 스크립트 정식 버전을 갖고 싶다면, "Chapter Tutorial 22"라는 메시지를 추가하여 뉴스레터를 구독하세요 . 우리는 즉시 귀하의 사서함으로 스크립트를 보내드립니다.

문의하기

22장: 키워드를 사용하여 항목 데이터를 가져오는 Tmall & Taobao 제품 스크래퍼를 재미있게 읽으시기 바랍니다. 그렇게 했다면 아래 나열된 일 중 하나를 수행하여 우리를 지원해 주세요. 이는항상 우리 채널에 도움이 되기 때문입니다.

  • PayPal( paypal.me/Easy2digital )을 통해 채널을 지원하고 기부하세요.
  • 내 채널을 구독하고 Easy2Digital Youtube 채널 알림 벨을 켜십시오.
  • 내 페이지 Easy2Digital Facebook 페이지를 팔로우하고 좋아요를 누르세요.
  • 해시태그 #easy2digital을 사용하여 소셜 네트워크에 기사를 공유하세요.
  • Easy2Digital 10% 할인 코드로 제품 구매( Easy2DigitalNewBuyers2021)
  • Easy2Digital 최신 기사, 비디오 및 할인 코드를 받으려면 주간 뉴스레터에 가입하세요.
  • Patreon을 통해 월간 멤버십을 구독하여 독점적인 혜택을 누리세요( www.patreon.com/louisludigital )

자주 묻는 질문:

Q1: 제품을 어디에서 구매할 수 있나요?

A: 저희 제품은 온라인 및 오프라인 매장에서 구매하실 수 있습니다.

Q2: 제품의 배송은 어떻게 이루어지나요?

A: 저희 제품은 주문 후 2~3일 내에 배송됩니다.

Q3: 제품의 크기와 무게는 어떻게 되나요?

A: 저희 제품은 평균적으로 10cm x 10cm x 10cm 크기이며, 약 1kg의 무게를 가지고 있습니다.

Q4: 제품의 보증 기간은 어떻게 되나요?

A: 저희 제품은 구매일로부터 1년간의 보증 기간이 제공됩니다.

Q5: 제품의 사용 방법은 어떻게 되나요?

A: 저희 제품의 사용 방법은 제공된 사용 설명서를 참고해주세요.

Q6: 제품의 교환 및 환불 정책은 어떻게 되나요?

A: 저희 제품은 구매 후 7일 이내에 교환 및 환불이 가능합니다. 자세한 내용은 고객 센터에 문의해주세요.

Q7: 제품의 전원 공급은 어떻게 이루어지나요?

A: 저희 제품은 전원 케이블을 통해 전기를 공급받습니다.

Q8: 제품의 세척 방법은 어떻게 되나요?

A: 저희 제품은 부드러운 천과 중성 세제를 사용하여 세척해주세요.

Q9: 제품의 소음 레벨은 어떻게 되나요?

A: 저희 제품의 소음 레벨은 60dB 이하입니다.

Q10: 제품의 수명은 어떻게 되나요?

A: 저희 제품은 적절한 사용 및 관리로 약 5년 이상 사용하실 수 있습니다.

이 게시물을 공유하세요

현재 댓글이 없습니다...

shape shape

뉴스레터에 가입하세요!

독점적인 자동차 스타일 콘텐츠 업데이트 및 특가를 받으세요