Instagram个人资料刮板 – 刮擦电子邮件，关注者数据

在上一章中，我介绍了如何使用主题标签和硒来刮擦潜在的Instagram合作伙伴。基本上，您只需花10分钟即可收集数百名候选人的清单。当然，这不是结局。这是因为学习趋势内容，监视竞争对手的最新活动以及自动化沟通必须是下一步。

因此，在本章的数字营销人员中，我将引导您浏览两种方法来收集Instagram用户配置文件数据。一种是继续使用硒参数和语法。另一个是使用Beautifulsoup和Json，除了Selenium。到本文结尾，您可以学习编写脚本的逻辑，当然，在单个Excel表中收集所有信息。

目录：构建Instagram配置文件刮板以刮擦Instagram电子邮件，关注者，帖子等
打开并阅读CSV文件中的链接
硒的方法find_element_by_xpath参数
使用Selenium，Beautifulsoup和JSON方法
Instagram电子邮件刮板的完整Python脚本
Instagram配置文件刮板 – 打开并读取CSV文件中提取的链接

在上一个Python教程中，我们保存了所有获取的Instagram主题标签的帖子链接，帖子赞和用户的IG配置文件链接。因此，您可以重复使用CSV文件，并生成要刮擦的所有Instagram用户配置文件链接。

这是读取链接的代码。 CSV_READING [1]表示工作表中的第二列是您的刮擦目标。这是因为0代表第一个和1代表计算机科学中的第二个。

用open（’dafdsfere.csv’，’r’）作为csv_file：
csv_reading = csv.reader（csv_file）
打印（csv_reading [1]）

在崇高的文本中，如果您可以打印CSV_READING并查看此KOL配置文件列表的结果，则表示有效。

话虽如此，我不会强调如何使用硒登录您的Instagram帐户并刮擦。如果您对此感兴趣，请查看第12章的上一篇文章。

Instagram个人资料刮刀 – 硒的方法find_element_by_xpath参数

现在是时候刮擦我们想要的数据了。首先，我们需要创建一个循环，只单击列。然后，您可以使用硒语法打开链接。以下是代码

对于csv_reading中的行：
链接=线[1]
尝试：
page = driver.get（链接）
除例外为E：
page =无
尝试：

其次，您可以检查对象并复制XPath。目的是锁定位置并获取目标数据。与我们以前的方法相同。

以帖子和追随者为例。后XPATH和追随者XPath在下面列出

//*[@ID =“ React-root”]/section/section/main/div/div/extert/ul/ul/li [1]/span/span
//*[@ID =“ react-root”]/section/section/main/div/div/header/section/ul/li [2]/a/span

因此，我们可以使用Find_element_by_xpath获取数据并使用文本语法获取数字。

postNumber = driver.find_element_by_xpath（’//*[@ID =“ react-root”]/section/section/main/main/div/div/header/section/ul/li [1]/li [1]/span/span’）

postnumber2 = postnumber.text

followerNumber = driver.find_element_by_xpath（’//*[@ID =“ react-root”]/section/section/main/main/div/div/section/ul/ul/li [2]/a/span’）

FollowerNumber2 = FollowerNumber.Text

最后但并非最不重要的一点是，您需要使用PANDAS附加数据并生成CSV文件。有关更多详细信息，请查看第12章文章。

Instagram个人资料刮板 – 使用硒，美丽的s和json方法

上一节中的缺点是您找不到电子邮件元素。这是因为只有移动版本显示电子邮件联系按钮。并非所有用户都在其个人资料中显示电子邮件地址。

为了更轻松获取用户数据，您可以参考Instagram JSON。这种方法与获取我们之前讨论的Shopify产品数据非常相似。

在Instagram的用户配置文件网上添加？__ a = 1可以向您显示JSON数据结构。例如，我以此IG用户为例。基本上，您可以找到可以通过API JSON访问的元素。例如，它们是电子邮件，帖子，关注者，照片，外部URL等。

https://www.instagram.com/sophieapps/?___ = 1＆__d = dis

关于Python脚本，编码线与使用XPath方法的Selenium查找非常相似。定义循环部分后，情况有所不同。

编码的核心线

首先，您需要单击带有其他参数的URL链接。因此，您需要使用美丽的汤和JSON将源代码转换为有组织的JSON格式。这是编码

对于csv_reading中的行：
链接=线[1]

page = driver.get（链接 +“？__ a = 1”）

汤= beautifulsoup（driver.page_source，“ html.parser”）。get_text（）

jsondata = json.loads（汤）

然后，这与获取Shopify产品数据非常相似。您需要找到目标获取的每个数据元素的路径，然后创建代码。以下是获取传记数据的示例。

传记= jsondata [“ graphql”] [“用户”] [“传记”]

最后但并非最不重要的一点是，您可以打印一本传记以查看它是否有效。如果工作正常，您可以附加列数据并将其另存为CSV文件。如果您使用代码并生成获取数据，这是示例。

Instagram个人资料刮板的完整Python脚本

如果您想拥有Instagram电子邮件刮板的Python脚本的完整版本，请通过添加消息“第13章”来订阅我们的新闻通讯。我们会尽快将脚本发送到您的邮箱。

希望您喜欢阅读第13章 – 构建Instagram个人资料刮板，以使用Selenium，Beautifulsoup和JSON刮擦Instagram电子邮件，关注者，帖子等。如果这样做，请通过执行下面列出的一件事情来支持我们，因为它总是有助于我们的频道。

希望您喜欢阅读。如果您这样做，请通过执行下面列出的一件事情来支持我们，因为它总是有助于我们的频道。

支持并通过paypal（ paypal.me/easy2digital ）
订阅我的频道并打开通知铃 easy2digital youtube youtube youtube频道
关注我的页面 easy2digital Facebook页面
与标签＃easy2digital 在您的社交网络上分享文章
您注册了我们的每周新闻通讯，以收到Easy2Digital的最新文章，视频和折扣代码
订阅我们通过Patreon每月会员资格享受独家福利（ www.patreon.com/louisludigitalialcom/louisludigitalialigitigitigitial）

分享文章

留言区

免费订阅最新内容更新

Cookie 和数据隐私