Scraper Tmall & Taobao à l’aide de mots clés pour les données de magasin, les données du produit

Ce chapitre vous guide à travers tous les outils et éléments que vous devez connaître et utiliser pour construire un grattoir Tmall et Taobao.

Tmall et Taobao constituent le plus grand marché en ligne B2C et C2B en Chine pour presque toutes les catégories de produits, des produits secs aux produits humides. Amazon est un phare inspirant si vous recherchez des produits à vendre dans le monde entier ou si vous défendez votre part d'activité sur les marchés ciblés. En Chine, Tmall et Taobao sont les endroits qu'il faut absolument visiter. En gros, on trouve de tout.

Dans ce chapitre, je vais vous guider dans la création d'un grattoir de produits Tmall et Taobao qui vous permet d'enquêter ou de créer un moniteur de tarification automatique. À la fin de ce chapitre, vous pourrez apprendre tous les outils et éléments que vous devez connaître et utiliser pour créer un grattoir de produits Tmall et Taobao. Ensuite, vous pouvez intégrer ces données de manière flexible dans votre tableau de bord ou votre calculateur de P&L.

Table des matières : Grattoir Tmall & Taobao

Quelle est la différence entre Taobao/Tmall et Amazon Product Scraper

Le sélénium est également l'élément clé pour construire le grattoir de produits Taobao et Tmall, ainsi que le grattoir de produits Amazon que nous avons examiné plus tôt. En Chine, les plateformes numériques nécessitent souvent différentes vérifications, telles que SMS, balayage manuel, identification faciale, identification personnelle, etc. Les chaînes numériques chinoises en particulier sont très strictes en matière d'exploration de robots suspects. Fondamentalement, la plupart des plateformes ont construit un système immunitaire plus ou moins résistant aux robots.

Il est normal que votre robot rencontre ce défi illustré sur la photo ci-dessus en Chine. Différent de la vérification par le canal occidental, cela nécessite non seulement une action manuelle, mais cela changerait également de temps en temps. Donc, fondamentalement, le script doit effectivement être ajusté si les modifications sont mises à jour. Ce type de méthodologie peut être déployé en Chine à Douyin, Zhihu, etc.

Dans cet article, nous présenterons principalement la détection du pilote Web et actionchain() pour la vérification manuelle par balayage.

Taobao Scraper – Paramètre ChromeOption()

Pour Taobao et Tmall, la raison est qu'ils ont mis en place un javascript pour détecter le trafic et justifier automatiquement s'il provient d'êtres humains ou de robots.

Normalement, si un utilisateur se connecte à son compte Taobao ou Tmall, le javascript indiquera que le comportement n'est pas défini sous window.navigator.webdriver . Cela veut dire que ce n'est pas un robot

Cependant, cela s'avérerait vrai si ce comportement était contrôlé par un pilote Web, puis par Taobao, et Tmall transformerait cela en une autre procédure de résistance à l'exploration.

La toute première chose à faire est donc de prétendre que votre comportement de scraping est une véritable action de l’utilisateur. Pour cela, nous devons ajouter des codages supplémentaires dans le paramètre d'option Chrome.

Dans ce contexte, je recommanderais de définir l'environnement du navigateur Chrome en chinois simplifié, afin que Taobao et Tmall ne soupçonnent pas que vous êtes un utilisateur des marchés étrangers.

Ensuite, ce sont les composants essentiels pour éviter d’être détectés comme un robot grattoir.

Enfin et surtout, je recommande également d'ajouter les codages qui mettent en pause tous les chargements d'images, dans le but d'augmenter la vitesse de chargement du Web. Après tout, votre objectif n’est pas ces photos.

Taobao Scraper – Quelles données produit vous pouvez récupérer

Concernant les données récupérables des produits et articles Taobao, il existe des noms de magasins, des photos de produits, des URL de pages de produits, des titres, des prix et des ventes totales.

Dans l'ensemble de données Tmall, c'est assez similaire à Taobao. Il dispose d’une mesure de données unique qui est le numéro d’avis client. Il peut vous permettre de comparer les ventes avec le numéro d'avis.

Taobao Scraper – Chemin des données des produits Taobao et Tmall

Les codages html et CSS Taobao et Tmall SERP sont différents. Ici, je prendrais Tmall par exemple.

Tout d’abord, c’est la structure de l’URL de la page SERP. Comme il s'agit d'un scraping basé sur des mots clés, vous devez savoir comment créer une URL avec des paramètres de requête modifiables. De plus, vous ne visez peut-être pas seulement à supprimer la 1ère page SERP. Vous trouverez ci-dessous les échantillons des produits Swans sur Taobao. Et comme chaque page contient 60 produits, chaque pagination doit en ajouter 60. Par exemple, s=60 signifie que c'est la 2ème page. S=120 signifie la 3ème page.

https://list.tmall.com/search_product.htm?q=swans
https://list.tmall.com/search_product.htm?q=swans&s=60
https://list.tmall.com/search_product.htm?q=swans&s=120

Deuxièmement, dans chaque SERP, il y a 60 éléments du bloc d'articles de produit comme celui-ci. Lorsque vous créez une boucle dans votre script Python, vous pouvez utiliser ce chemin de données pour verrouiller tous les blocs.

results = soup.find_all('div',{'class': 'product-iWrap'})

Enfin et surtout, nous devons créer une autre boucle basée sur les données de résultats, et spécialement récupérer les données dont nous avons besoin à des fins commerciales. Ici, je sélectionne le titre du produit, les URL, le nom de la boutique, les ventes mensuelles et le prix.

title = tag.find('p',{'class': 'productTitle'}).text.strip()
url = tag.find('a',{'class': 'productImg'})['href']
Shopname = tag.find('a',{'class': 'productShop-name'}).text.strip()
monthlySales = tag.find('p',{'class': 'productStatus'}).text.strip()
price = tag.find('p',{'class': 'productPrice'}).text.strip()

Action chain () nécessaire pour Tmall Scraper

Contrairement à Taobao, Tmall a un processus de connexion plus strict. C’est parce qu’il doit y avoir une étape de vérification manuelle par balayage. Pendant ce temps, Taobao ressemble plus au scraper Instagram que je vous ai présenté plus tôt. Il peut vous diriger directement vers la page SERP après vous être connecté.

Heureusement, le Sélénium est très puissant. Il n’a pas seulement les fonctions de défilement vers le haut et vers le bas. Il peut également vous faciliter le balayage horizontal en attente à l'aide de la fonction de chaîne d'action.

Tout d'abord, vous devez importer ce module au début du script python.

from selenium.webdriver.common.action_chains import ActionChains

Ensuite, en plus de trouver le chemin des données de l'article du produit, vous devez identifier l'emplacement du balayage et utiliser du sélénium pour verrouiller le chemin.

slider = driver.find_element_by_id('nc_1_n1z')

Enfin et surtout, nous pouvons utiliser une fonction de chaîne d'action et quelques méthodes supplémentaires pour stimuler l'action réalisée par un utilisateur réel. Rappelez-moi simplement qu'il est préférable de régler une minuterie après vous être connecté, car le chargement de la page peut parfois être lent. Juste au cas où votre adresse IP serait mise sur liste noire par Taobao et définie comme adresse IP de robot.

log_in = WebDriverWait(driver,10).until(EC.element_to_be_clickable((By.CSS_SELECTOR,"button[type='submit']"))).click()
time.sleep(15)

ActionChains(driver).click_and_hold(slider).move_by_offset(300, 0).pause(5).release().perform()

Taobao Scraper – Quelle est la valeur commerciale de ces données ?

Comme le grattoir de produits Amazon, le grattoir de produits Tmall et Taobao a une valeur commerciale énorme pour vous permettre de découvrir les opportunités du marché et l'environnement de concurrence. À partir des données de ventes et de prix, vous pouvez essentiellement comprendre quel est le prix moyen et quelles stratégies de vente sont les plus populaires. À partir de là, vous pouvez savoir combien de concurrents vendent des produits d’une valeur similaire à la vôtre. Vous pouvez créer un moniteur de prix en temps réel comme vous le faites pour les activités Amazon.

C'est également une approche très utile pour trouver les produits de marque contrefaits et reconditionnés de votre marque. sont également très populaires sur Taobao et Tmall, bien qu'Alibaba ait activement mis ces faux magasins sur liste noire. Cependant, si votre entreprise est une marque étrangère, cela reste un défi. C'est parce que les questions d'entité juridique et de marque n'ont pas de lien avec le système des pays occidentaux. Ainsi, même si l'enregistrement de votre marque et votre inscription au marché commercial ont été effectués, cela ne signifie pas qu'ils sont légaux en Chine. Il y a donc un dicton selon lequel en Chine, tout est question de censure, de documentation et de coût de départ.

Script Python complet de Taobao & Tmall Product Scraper

Si vous souhaitez disposer de la version complète du Script Python de Tmall & Taobao Product Scraper, veuillez vous abonner à notre newsletter en ajoutant le message « Chapitre Tutorial 22 » . Nous vous enverrons le script immédiatement dans votre boîte aux lettres.

Contactez-nous

J'espère que vous apprécierez la lecture du chapitre 22 : Tmall & Taobao Product Scraper Utilisation de mots-clés pour récupérer les données des articles. Si c'est le cas, veuillez nous soutenir en effectuant l'une des choses répertoriées ci-dessous, car cela aide toujours notre chaîne.

  • Soutenez et faites un don à notre chaîne via PayPal ( paypal.me/Easy2digital )
  • Abonnez-vous à ma chaîne et activez la cloche de notification. Chaîne Youtube Easy2Digital .
  • Suivez et aimez ma page Page Facebook Easy2Digital
  • Partagez l'article sur vos réseaux sociaux avec le hashtag #easy2digital
  • Achetez des produits avec le code de réduction Easy2Digital 10 % ( Easy2DigitalNewBuyers2021)
  • Vous vous inscrivez à notre newsletter hebdomadaire pour recevoir les derniers articles, vidéos et codes de réduction d'Easy2Digital
  • Abonnez-vous à notre abonnement mensuel via Patreon pour profiter d'avantages exclusifs ( www.patreon.com/louisludigital )

Table des matières:

Q1: Qu’est-ce que le Scraper Tmall ?

A: Le Scraper Tmall est un outil de collecte de données conçu pour extraire automatiquement les informations des produits de la plateforme Tmall.

Q2: Comment fonctionne le Scraper Tmall ?

A: Le Scraper Tmall utilise des algorithmes avancés pour naviguer sur la plateforme Tmall et extraire les informations des produits, telles que les descriptions, les prix et les images.

Q3: Pourquoi devrais-je utiliser le Scraper Tmall ?

A: Le Scraper Tmall vous permet de collecter rapidement et efficacement des données sur les produits de Tmall, ce qui peut être utile pour la recherche de marché, la veille concurrentielle et d’autres activités commerciales.

Q4: Quels types de données puis-je extraire avec le Scraper Tmall ?

A: Avec le Scraper Tmall, vous pouvez extraire des données telles que les noms des produits, les descriptions, les prix, les évaluations des clients, les images et d’autres informations pertinentes.

Q5: Est-ce que le Scraper Tmall est légal ?

A: Oui, le Scraper Tmall est légal tant que vous utilisez les données collectées conformément aux conditions d’utilisation de Tmall et aux lois en vigueur.

Q6: Est-ce que le Scraper Tmall nécessite des compétences techniques avancées ?

A: Non, le Scraper Tmall est conçu pour être convivial et ne nécessite pas de compétences techniques avancées. Toutefois, une connaissance de base de la collecte de données et de l’utilisation d’outils en ligne peut être utile.

Q7: Puis-je utiliser le Scraper Tmall pour collecter des données à grande échelle ?

A: Oui, le Scraper Tmall peut être utilisé pour collecter des données à grande échelle. Il vous permet de définir des paramètres de recherche spécifiques et de collecter des informations sur un grand nombre de produits.

Q8: Le Scraper Tmall est-il compatible avec d’autres plateformes de commerce électronique ?

A: Non, le Scraper Tmall est spécifiquement conçu pour fonctionner avec la plateforme Tmall. Si vous souhaitez collecter des données d’autres plateformes, vous devrez utiliser un outil spécifique à cette plateforme.

Q9: Quelle est la précision des données extraites par le Scraper Tmall ?

A: Le Scraper Tmall est conçu pour extraire les données avec une grande précision. Cependant, il est important de noter que la précision peut varier en fonction de la qualité des informations disponibles sur la plateforme Tmall.

Q10: Existe-t-il une version d’essai gratuite du Scraper Tmall ?

A: Oui, nous offrons une version d’essai gratuite du Scraper Tmall. Vous pouvez l’utiliser pour évaluer ses fonctionnalités et sa convivialité avant de prendre une décision d’achat.