Tmall y Taobao Raper utilizando palabras clave para almacenar datos de productos

Este capítulo lo guía a través de todas las herramientas y elementos que necesita conocer y usar para construir un raspador Tmall y Taobao.

Tmall y Taobao es el mercado B2C y C2B en línea más grande en China para casi todas las categorías de productos, desde productos secos hasta productos húmedos. Amazon es un faro inspirador si está buscando productos para vender en todo el mundo, o está defendiendo su participación comercial en los mercados específicos. En China, Tmall y Taobao son los lugares a los que debes ir y explorar. Básicamente, puedes encontrar cualquier cosa.

In this chapter, I would walk you through creating a Tmall and Taobao product scraper that facilitates you to investigate or build an automatic pricing monitor. By the end of this chapter, you can learn all the tools and elements you need to know and use for building a Tmall and Taobao product scraper. Then, you can flexibly plug these data into your dashboard or P&L calculator.

Table of Contents: Tmall & Taobao Scraper

¿Cuál es la diferencia entre Taobao/Tmall y Amazon Product Rhraper?

Selenium is also the key component to build the Taobao and Tmall product scraper, as well as the Amazon product scraper we walked through earlier. In China, digital platforms often require different verifications, such as SMS, manual swipe, face ID, personal ID, etc. Particularly Chinese digital channels are very strict about suspicious robot crawling. Basically, most platforms have built up a more or less immune system resisting robots.

Es normal que su robot pueda encontrarse con este desafío que se muestra en la foto de arriba en China. A diferencia de la verificación del canal occidental, no solo requiere una acción manual, sino que también cambiaría el tiempo por tiempo. Entonces, básicamente, el script necesita un ajuste si se actualizan los cambios. Este tipo de metodología se puede implementar a China Douyin, Zhihu, etc.

In this article, we would mainly showcase web driver detection and actionchain() for manual swipe verification.

Taobao Scraper – ChromeOption() setting

Para Taobao y Tmall, la razón es que han establecido un JavaScript para detectar el tráfico y justificar automáticamente si es de ser humano o robots.

Normally, if a user logins into her or his Taobao, or Tmall account, the javascript would show the behavior is undefined under window.navigator.webdriver. That means it’s not a robot

Sin embargo, mostraría cierto si este comportamiento está siendo controlado por un WebDriver, y luego Taobao, y Tmall convertiría esto en otro procedimiento de resistencia de rastreo.

Entonces, lo primero es fingir que su comportamiento de raspado es una acción real del usuario. Para esto, necesitamos agregar codificaciones adicionales en la configuración de la opción Chrome.

En este entorno, recomendaría establecer el entorno del navegador Chrome en chino simplificado, por lo que Taobao y Tmall no sospechan que es un usuario de los mercados de extranjeros.

Luego, estos son los componentes centrales para escapar a ser detectados como un raspador de robot.

Por último, pero no menos importante, también recomiendo agregar las codificaciones que detienen todas las cargas de imágenes, con el propósito de aumentar la velocidad de carga web. Después de todo, su objetivo no es para esas fotos.

Taobao RAPER: qué datos del producto puede obtener

Con respecto a los datos raspables de productos y artículos de Taobao, hay nombres de tiendas, fotos de productos, URL de la página del producto, títulos, precios y ventas totales.

En el conjunto de datos TMall, es bastante similar a Taobao. Tiene una métrica de datos única que es el número de revisión del cliente. Puede permitirle comparar las ventas con el número de revisión.

Taobao Scraper – Ruta de datos de productos Taobao y Tmall

Las codificaciones Taobao y Tmall SERP HTML y CSS son diferentes. Aquí tomaría Tmall, por ejemplo.

First thing first, it’s the SERP page URL structure. As it’s a keyword-based scraping, you need to know how to create a URL with changeable query parameters. What’s more, you might not only aim to scrape the 1st page SERP. Below are the samples of the Swans products in Taobao. And as each page has 60 products, so each pagination needs to add on 60. For example, s=60 means it’s the 2nd page. S=120 means the 3rd page.

https://list.tmall.com/search_product.htm?q=swans
https://list.tmall.com/search_product.htm?q=swans&s=60
https://list.tmall.com/search_product.htm?q=swans&s=120

En segundo lugar, en cada SERP, hay 60 piezas del bloque de elementos del producto como este. Cuando crea un bucle en su script de Python, puede usar esta ruta de datos para bloquear todos los bloques.

results = soup.find_all('div',{'class': 'product-iWrap'})

Por último, pero no menos importante, necesitamos crear otro bucle en los datos de resultados y raspar especialmente los datos que necesitamos para fines comerciales. Aquí selecciono el título del producto, las URL, el nombre de la tienda, las ventas mensuales y el precio.

title = tag.find('p',{'class': 'productTitle'}).text.strip()
url = tag.find('a',{'class': 'productImg'})['href']
Shopname = tag.find('a',{'class': 'productShop-name'}).text.strip()
monthlySales = tag.find('p',{'class': 'productStatus'}).text.strip()
price = tag.find('p',{'class': 'productPrice'}).text.strip()

Action chain () needed for Tmall Scraper

Unlike Taobao, Tmall has a more strict login process. It’s because it must have a manual swipe verification step. Meanwhile, Taobao is more like the Instagram scraper I walked you through earlier. It can directly direct you to the SERP page after you login in.

Afortunadamente, Selenium es muy poderoso. No solo tiene el desplazamiento hacia arriba y se desplaza hacia abajo. También puede facilitarle deslizar horizontalmente con la función de la cadena de acción

Primero primero, debe importar este módulo al comienzo del script de Python.

from selenium.webdriver.common.action_chains import ActionChains

Luego, además de encontrar la ruta de datos del elemento del producto, debe identificar dónde está la ubicación de deslizamiento y usar selenio para bloquear la ruta

slider = driver.find_element_by_id('nc_1_n1z')

Por último, pero no menos importante, podemos usar una función de cadena de acción y algunos métodos más para estimular la acción completada por un usuario real. Solo recuérdame que es mejor establecer un temporizador después de iniciar sesión, ya que a veces la carga de la página puede ser lenta. En caso de que su IP pueda estar en la lista negra por Taobao y establecerse como una IP robot.

log_in = WebDriverWait(driver,10).until(EC.element_to_be_clickable((By.CSS_SELECTOR,"button[type='submit']"))).click()
time.sleep(15)

ActionChains(driver).click_and_hold(slider).move_by_offset(300, 0).pause(5).release().perform()

Taobao Scraper: ¿Cuál es el valor comercial de estos datos?

Al igual que el raspador de productos de Amazon, el raspador de productos Tmall y Taobao tiene un gran valor comercial para que aprenda las oportunidades de mercado y el entorno de competencia. A partir de los datos de ventas y precios, básicamente puede comprender cuál es el precio AVG y qué estrategias de venta son más populares. A partir de aquí, puede aprender cuántos competidores venden un valor de producto similar al suyo. Puede crear un monitor de precios en tiempo real, así como lo está haciendo para Amazon Business.

Además, es un enfoque muy útil para encontrar los productos de marca falsos y restaurados de su marca. También son muy populares en Taobao y Tmall, aunque Alibaba ha estado en la lista negra de esas tiendas de marca falsas. Sin embargo, si su negocio es una marca extranjera, todavía es desafiante. Es porque la entidad legal y la marca registrada no se conectan con el sistema del país occidental. Entonces, a pesar de que se ha realizado el registro y el registro comercial del mercado comercial, no significa que no sean legales en China. Entonces, hay un dicho que se trata de censura, documentación y comienzo de costo en China.

Full Python Script of Taobao & Tmall Product Scraper

If you would like to have the full version of the Python Script of Tmall & Taobao Product Scraper, please subscribe to our newsletter by adding the message “Chapter Tutorial 22”. We would send you the script immediately to your mailbox.

Contáctenos

I hope you enjoy reading Chapter 22: Tmall & Taobao Product Scraper Using Keywords to Fetch Item Data. If you did, please support us by doing one of the things listed below, because it always helps out our channel.

  • Support and donate to our channel through PayPal (paypal.me/Easy2digital)
  • Subscribe to my channel and turn on the notification bell Easy2Digital Youtube channel.
  • Follow and like my page Easy2Digital Facebook page
  • Comparta el artículo en su red social con el hashtag #Easy2Digital
  • Buy products with Easy2Digital 10% OFF Discount code (Easy2DigitalNewBuyers2021)
  • Usted se registra en nuestro boletín semanal para recibir los últimos artículos, videos y códigos de descuento de Easy2Digital.
  • Subscribe to our monthly membership through Patreon to enjoy exclusive benefits (www.patreon.com/louisludigital)

PREGUNTAS MÁS FRECUENTES:

P1: ¿Qué es el raspador de productos Taobao?

R: El raspador de productos Taobao es una herramienta que le permite extraer datos de productos de Taobao, una popular plataforma de comercio electrónico chino.

P2: ¿Cómo funciona el raspador de productos Taobao?

R: El raspador de productos Taobao funciona utilizando técnicas de raspado web para extraer información de productos como títulos, precios, descripciones e imágenes de las páginas de productos Taobao.

P3: ¿Qué puedo hacer con los datos extraídos del raspador de productos Taobao?

R: Una vez que haya extraído los datos utilizando el raspador de productos Taobao, puede usarlo para varios fines, como la investigación de mercado, el análisis de la competencia, la comparación de precios, la gestión de inventario y más.

P4: ¿Es legal el raspador de productos Taobao?

R: Si bien el raspado web es generalmente legal, la legalidad de raspar sitios web específicos puede variar. Es importante revisar y cumplir con los términos de servicio de Taobao antes de usar el raspador de productos Taobao.

P5: ¿Puedo raspar datos de productos de múltiples tiendas Taobao?

R: Sí, el raspador de productos Taobao le permite raspar los datos del producto de varias tiendas Taobao. Puede especificar las URL de las tiendas que desea raspar o usar palabras clave de búsqueda para raspar productos de varias tiendas.

P6: ¿El raspador de productos Taobao admite las revisiones y las calificaciones de los productos que raspan?

R: Sí, el raspador de productos Taobao puede extraer revisiones y calificaciones de productos junto con otros datos de productos. Esto puede ser útil para analizar los comentarios de los clientes y el sentimiento hacia los productos.

P7: ¿Puedo programar rasguños automatizados con raspador de productos Taobao?

R: Sí, el raspador de productos Taobao ofrece opciones de programación que le permiten automatizar el proceso de raspado. Puede configurar intervalos regulares para raspar o programar tiempos específicos para raspar.

P8: ¿En qué formatos puedo exportar los datos raspados?

R: El raspador de productos Taobao admite la exportación de los datos raspados en varios formatos como CSV, Excel, JSON o formatos personalizados. Puede elegir el formato que mejor se adapte a sus necesidades.

P9: ¿Es el raspador de productos Taobao que es amigable para principiantes?

R: Sí, el raspador de productos Taobao está diseñado para ser fácil de usar y accesible para principiantes. Proporciona una interfaz simple e intuitiva para configurar y ejecutar fácilmente tareas de raspado.

P10: ¿El raspador de productos Taobao ofrece atención al cliente?

R: Sí, Taobao Product Scraper ofrece atención al cliente para ayudarlo con cualquier pregunta o problema que pueda encontrar mientras usa la herramienta. Puede comunicarse con su equipo de apoyo para obtener ayuda.