Twitter 机器人抓取热门话题、影响者个人资料数据
创建一个 Twitter 机器人,抓取排名最高的主题和影响者个人资料数据。它是免费的,可以根据您的业务需求轻松定制。
在本章中,我将引导您了解如何创建 Twitter 机器人来抓取排名靠前的主题数据和影响者资料。在本章结束时,您会发现它是完全免费的,您不再需要依赖那里的付费软件。最重要的是,它可以根据您的业务需求轻松创建和定制。
目录:用于抓取热门话题和影响者资料的 Twitter 机器人
- 为什么 Twitter 机器人对数字营销人员有价值
- 创建 Twitter 开发者帐户
- 创建一个新的应用程序并获取 API Key 和 Token
- Tweepy 模块
- Twitter 连接、推文搜索和搜索运算符
- 可抓取的推文和高音数据
- 重命名数据头
- Twitter 机器人的完整 Python 脚本
为什么 Twitter 机器人对您的业务有价值?
您可能还记得,许多研究都集中在唐纳德·特朗普在政治生涯中使用推特的技巧。自 2009 年加入以来,Twitter 已成为一个非常受欢迎的平台,可以即时分享观点、转发和评论,并表达用户的实时情绪。
根据 Statista 的最新统计数据,Twitter 拥有 2.06 亿日活跃用户 (DAU),在此用户群中,以下是按国家/地区排名前 10 位的 Twitter 用户。用户还喜欢在 Twitter 上浏览和讨论新闻、娱乐和专业领域主题。
Twitter的推文和转发量非常大,尽管推文字符长度比其他社交媒体平台短,但全球范围内Twitter网页版的平均访问时长接近11分钟。在速度和新闻反应方面,Twitter以一种超前于事件和事件的方式代表了用户的实时、最新趋势和即时情绪。
换句话说,网红发布的排名靠前的内容,以及情感数据,可以让品牌和商家从用户的角度暗示特定的趋势话题和真实感受。问题是如何自动从 Twitter 上大规模地抓取这些数据。这就是 Twitter 机器人的价值。
Twitter 机器人 – 创建 Twitter 开发者帐户
首先,您需要一个 Twitter 开发者帐户,它是免费的,但可能需要一些时间才能获得 Twitter 的批准。我们需要该帐户的原因是为了获取 Twitter Bot Python 脚本中使用的 Twitter API 密钥和令牌。
Twitter开发者API帐户有免费版和企业版。事实上我们不需要企业版,尽管它有每月拉取推文的限制,即 200 万条。它将在每个月的第一天重置。
在账户申请方面,基本上,您需要使用电子邮件地址并提交您需要API的原因。对我来说,它被认为是用于软件开发。
Twitter Bot – 创建新应用程序并获取 API 密钥和令牌
拥有开发者帐户后,您需要首先为 Twitter Bot 项目创建一个新应用程序。有 3 个选项,如果用于在 Python 脚本中创建 Twitter 机器人,则没有区别。但我建议选择可用于实时产品的产品,例如网络应用程序。
然后,您可以获得API密钥和Token。以下是 Twitter 机器人所需的 4 个键。请先将它们复制并粘贴到一个地方。你马上就会需要它们。
- API密钥
- API密钥秘密
- 访问令牌
- 访问令牌秘密
Tweepy 模块
Tweepy 是一个开源 Python 包,它为您提供了一种使用 Python 访问 Twitter API 的非常便捷的方法。它包括一组代表 Twitter 模型和 API 端点的类和方法,并且透明地处理各种实现细节。它们包括数据编码、数据解码、HTTP 请求、结果分页、流、身份验证和速率限制
该模块可以帮助您连接 Twitter API 并构建 Twitter 机器人,用于抓取流行推文和影响者个人资料数据。虽然您可以使用 Python 中的请求直接编码并连接 Twitter API,但老实说这会花费您很多时间。
对于 Tweepy 安装来说,非常简单。以Mac为例,您只需打开终端并输入“pip3 install tweepy”即可。
与其他 Python 脚本一样,您只需在 Twitter Bot 脚本的开头输入“import tweepy”即可。
有关 Tweepy API 文档的详细信息,请参阅以下链接
https://docs.tweepy.org/
Twitter API 连接、推文搜索和搜索运算符
首先,您需要将脚本与 Twitter API 连接起来。这是代码。我提前创建了变量,分别是 apiKey、apiKeySecret、AccessToken、AccessTokenSecret。您可以复制并粘贴刚才获取的 API 密钥集。
现在脚本中已经连接了 api,下面是 tweepy 搜索 tweet 方法,您可以使用它来定义 twitter 机器人的对象。有关更多详细信息,您可以参考 Tweepy API 文档来自定义您的机器人以进行推文搜索和收集数据。
list(tweepy.Cursor(api.search_tweets(q, *, geocode, lang, locale, result_type, count, until, since_id, max_id, include_entities)¶.items())
从我的角度来看,您可能经常使用三个参数。
q——查询
与其他社交机器人相比,Twitter 提供了更深入的运算符选项来指定搜索。例如,有一个匹配类型机制,您可以选择完全匹配或广泛匹配以及Google SEM广告,这非常有趣。
此外,您还可以使用主题标签,就像在 Instagram 机器人中使用它们一样。或者,您可以使用提及来查找提及特定推文帐户的所有推文。这对您抓取最受欢迎的内容或最受欢迎的帐户非常有帮助。
结果类型
此参数可以指定您希望接收的搜索结果类型。如果您没有为该方法分配特定值,则默认值为“混合”。基本上有三种类型
- 混合:在响应中包括流行结果和实时结果
- centre :仅返回响应中的最新结果
- 流行:仅返回响应中最受欢迎的结果
地理对象
如果美国和日本都是您的目标市场,此参数将非常有助于缩小搜索对象。您可以在此参数值中添加国家/地区代码或城市名称。因此,抓取的数据将仅来自该国家或城市,其中包括影响者个人资料数据。
可抓取的推文和高音数据
使用 Tweepy 可以抓取两种类型的数据。一个是推文数据,另一个是推文用户数据(影响者资料)
这是添加一些有用参数的变量,您通常需要这些参数来抓取最流行的内容和最流行的帐户。
重命名数据头
Tweepy API 数据采用列表格式,而不是 JSON 格式。默认情况下,列数据标题以数字0、1、2、3、4、5命名。坦白说,这在以后的业务分析中查找或查找数据并不方便。
因此,如果使用Tweep连接Twitter并构建Twitter Bot,则需要使用Pandas重命名列名称。基本上,您需要使用 rename() 方法和列参数。
这是代码示例:
Twitter 机器人的完整 Python 脚本
如果您对用于抓取最受欢迎主题和影响者个人资料的 Twitter 机器人的完整脚本感兴趣,请添加消息“第 34 章”来订阅我们的时事通讯。我们会立即将脚本发送到您的邮箱。
我希望您喜欢阅读第 34 章:用于抓取最受欢迎主题和影响者个人资料的 Twitter 机器人。如果您这样做了,请通过执行下列操作之一来支持我们,因为这总是对我们的频道有所帮助。
- 通过 PayPal ( paypal.me/Easy2digital ) 支持并捐赠我们的频道
- 订阅我的频道并打开通知铃Easy2Digital Youtube 频道。
- 关注并喜欢我的页面Easy2Digital Facebook 页面
- 使用主题标签 #easy2digital 在您的社交网络上分享文章
- 使用 Easy2Digital 10% OFF 折扣代码购买产品 ( BUYFROMLOCOUPON)
- 您订阅我们的每周通讯即可接收 Easy2Digital 最新文章、视频和折扣代码
- 通过 Patreon 订阅我们的月度会员即可享受独家优惠 ( www.patreon.com/louisludigital )