Instagram个人资料刮板 – 刮擦电子邮件,关注者数据
构建一个Instagram配置文件scraper,以使用JSON和Selenium收集Instagram用户电子邮件,关注者和URL数据。了解更多。
在上一章中,我介绍了如何使用主题标签和硒来刮擦潜在的Instagram合作伙伴。基本上,您只需花10分钟即可收集数百名候选人的清单。当然,这不是结局。这是因为学习趋势内容,监视竞争对手的最新活动以及自动化沟通必须是下一步。
因此,在本章的数字营销人员中,我将引导您浏览两种方法来收集Instagram用户配置文件数据。一种是继续使用硒参数和语法。另一个是使用Beautifulsoup和Json,除了Selenium。到本文结尾,您可以学习编写脚本的逻辑,当然,在单个Excel表中收集所有信息。
目录:构建Instagram配置文件刮板以刮擦Instagram电子邮件,关注者,帖子等
打开并阅读CSV文件中的链接
硒的方法find_element_by_xpath参数
使用Selenium,Beautifulsoup和JSON方法
Instagram电子邮件刮板的完整Python脚本
Instagram配置文件刮板 – 打开并读取CSV文件中提取的链接
在上一个Python教程中,我们保存了所有获取的Instagram主题标签的帖子链接,帖子赞和用户的IG配置文件链接。因此,您可以重复使用CSV文件,并生成要刮擦的所有Instagram用户配置文件链接。
这是读取链接的代码。 CSV_READING [1]表示工作表中的第二列是您的刮擦目标。这是因为0代表第一个和1代表计算机科学中的第二个。
用open(’dafdsfere.csv’,’r’)作为csv_file:
csv_reading = csv.reader(csv_file)
打印(csv_reading [1])
在崇高的文本中,如果您可以打印CSV_READING并查看此KOL配置文件列表的结果,则表示有效。
话虽如此,我不会强调如何使用硒登录您的Instagram帐户并刮擦。如果您对此感兴趣,请查看第12章的上一篇文章。
Instagram个人资料刮刀 – 硒的方法find_element_by_xpath参数
现在是时候刮擦我们想要的数据了。首先,我们需要创建一个循环,只单击列。然后,您可以使用硒语法打开链接。以下是代码
对于csv_reading中的行:
链接=线[1]
尝试:
page = driver.get(链接)
除例外为E:
page =无
尝试:
其次,您可以检查对象并复制XPath。目的是锁定位置并获取目标数据。与我们以前的方法相同。
以帖子和追随者为例。后XPATH和追随者XPath在下面列出
//[@ID =“ React-root”]/section/section/main/div/div/extert/ul/ul/li [1]/span/span
//[@ID =“ react-root”]/section/section/main/div/div/header/section/ul/li [2]/a/span
因此,我们可以使用Find_element_by_xpath获取数据并使用文本语法获取数字。
postNumber = driver.find_element_by_xpath(’//*[@ID =“ react-root”]/section/section/main/main/div/div/header/section/ul/li [1]/li [1]/span/span’)
postnumber2 = postnumber.text
followerNumber = driver.find_element_by_xpath(’//*[@ID =“ react-root”]/section/section/main/main/div/div/section/ul/ul/li [2]/a/span’)
FollowerNumber2 = FollowerNumber.Text
最后但并非最不重要的一点是,您需要使用PANDAS附加数据并生成CSV文件。有关更多详细信息,请查看第12章文章。
Instagram个人资料刮板 – 使用硒,美丽的s和json方法
上一节中的缺点是您找不到电子邮件元素。这是因为只有移动版本显示电子邮件联系按钮。并非所有用户都在其个人资料中显示电子邮件地址。
为了更轻松获取用户数据,您可以参考Instagram JSON。这种方法与获取我们之前讨论的Shopify产品数据非常相似。
在Instagram的用户配置文件网上添加?__ a = 1可以向您显示JSON数据结构。例如,我以此IG用户为例。基本上,您可以找到可以通过API JSON访问的元素。例如,它们是电子邮件,帖子,关注者,照片,外部URL等。
https://www.instagram.com/sophieapps/?___ = 1&__d = dis
关于Python脚本,编码线与使用XPath方法的Selenium查找非常相似。定义循环部分后,情况有所不同。
编码的核心线
首先,您需要单击带有其他参数的URL链接。因此,您需要使用美丽的汤和JSON将源代码转换为有组织的JSON格式。这是编码
对于csv_reading中的行:
链接=线[1]
page = driver.get(链接 +“?__ a = 1”)
汤= beautifulsoup(driver.page_source,“ html.parser”)。get_text()
jsondata = json.loads(汤)
然后,这与获取Shopify产品数据非常相似。您需要找到目标获取的每个数据元素的路径,然后创建代码。以下是获取传记数据的示例。
传记= jsondata [“ graphql”] [“用户”] [“传记”]
最后但并非最不重要的一点是,您可以打印一本传记以查看它是否有效。如果工作正常,您可以附加列数据并将其另存为CSV文件。如果您使用代码并生成获取数据,这是示例。
Instagram个人资料刮板的完整Python脚本
如果您想拥有Instagram电子邮件刮板的Python脚本的完整版本,请通过添加消息“第13章”来订阅我们的新闻通讯。我们会尽快将脚本发送到您的邮箱。
希望您喜欢阅读第13章 – 构建Instagram个人资料刮板,以使用Selenium,Beautifulsoup和JSON刮擦Instagram电子邮件,关注者,帖子等。如果这样做,请通过执行下面列出的一件事情来支持我们,因为它总是有助于我们的频道。
通过PayPal(paypal.me/easy2digital)支持并捐赠给我的频道
订阅我的频道,并打开通知铃easy2Digital YouTube频道。
关注和喜欢我的页面Easy2Digital Facebook页面
与主题标签#Easy2Digital在您的社交网络上分享文章
您注册我们的每周新闻通讯,以收到Easy2Digital的最新文章,视频和折扣代码
订阅我们通过Patreon每月会员资格以享受独家福利(www.patreon.com/louisludigital)
希望您喜欢阅读。如果您这样做,请通过执行下面列出的一件事情来支持我们,因为它总是有助于我们的频道。
- 支持并通过paypal( paypal.me/easy2digital )
- 订阅我的频道并打开通知铃 easy2digital youtube youtube youtube频道。 li>
- 关注我的页面 easy2digital Facebook页面
- 与标签#easy2digital
- 您注册了我们的每周新闻通讯,以收到Easy2Digital的最新文章,视频和折扣代码
- 订阅我们通过Patreon每月会员资格享受独家福利( www.patreon.com/louisludigitalialcom/louisludigitalialigitigitigitial)
)
在您的社交网络上分享文章