抖音爬虫从0到1-第三弹:爬取抖音用户详细数据

JavaScript017

抖音爬虫从0到1-第三弹:爬取抖音用户详细数据,第1张

相关文章:

抖音 x-gorgon 03 免费生成接口 抖音6.3.0版本

抖音爬虫从0到1-第一弹:环境配置

抖音爬虫从0到1-第二弹:获取抖音用户数据

前面介绍了分析了抖音请求header中的 X-gorgon的获取方法 ,同时在分析 获取抖音用户数据的时候 ,我们发现爬取抖音用户的数据需要使用用户的user_id和sec_user_id,我们通过抓包工具获取用户的id以及sec_user_id,然后通过用户的关注列表和follow列表获取更多的用户的user_id和sec_user_id,下面我将介绍一下如何根据user_id和sec_user_id来获取抖音用户的详细数据。

首先在搭建好的环境中通过Fiddle抓取用户数据包。

我们知道了请求的api以及请求头里面都包含了哪些信息,我们就可以通过手动构造对应的请求参数来爬取用户的数据了。我已经在 前面的文章 获取到了 1W+ 的用户的 uid 以及 sec_user_id 的数据了,然后我们就可以通过这些数据来爬取用户的详细数据。

在文章 抖音爬虫从0到1-第二弹:获取抖音用户数据 我们已经介绍了爬取抖音关注列表的api及其构造方法,其实获取用户详细信息和获取用户的关注列表的api基本一致,主要都是需要我们自行填充用户的user_id以及用户的sec_user_id还有一大堆的时间戳信息,其他的信息都是不变的。下面我们构造获取用户详细信息的api

上文我们已经分析了请求头,请求头的构造也比较方便,大部分内容都是固定的,需要我们填充的主要还是几个时间戳以及对应的X-Gorgon,其中X-Gorgon的构造方法比较复杂,在文章“ 抖音 x-gorgon 03 免费生成接口 抖音6.3.0版本 ”中我已经提供了一个生成X-Gorgon的接口,但是要注意填入正确的Cookie和Token你才能获得可用的X-Gorgon,否则你的Gorgon就是不可用的。下图是请求头里面的主要信息:

下面我写了一个构造请求头的函数:

根据上面对响应数据的分析,其对应的响应数据是json格式的,而且数据特别多,分析了一下,我找了一些对我比较有用的数据:

以上就是爬取用户信息的全部内容,码字不易,还请点赞关注,有任何问题请留言.

之前某大神用爬虫把抖音一天所有短视频的数据都扒出来了,总共2万多条的数据,拿到数据之后,用这份数据洗出我们想要的几个关键点。

洗出人群的标签,标签包括爱好,关注点,时间点。

对2万数据经过清洗,经过描述做分词词频统计,排除无效词,统计出高频词“喜欢”“自己”“真的”“可以”“教程”“发型”“思域”“化妆”等,这里我们之后引出可以干嘛。

接着是时间段,这个主要是为了统计用户的习惯,客观是可以看出用户在什么时间段比较活跃。

再根据上面用户发布时间段的时间统计出这个时间段用户的点赞转发量做为参考,最终得到下图。这样可以得到比较准确的时间段。

可以明显在时间段看出效果的差别,下午13:00和晚上18:00是点赞高峰期。

在统计的2万条数据里面再进行一次点赞的分布曲线的清洗,大概的出的数据分布,大部分的短视频点赞在700以下,上万的短视频占比并不大,这个是抖音的数据造成的,按照之前做今日头条的算法都是计算你前面1000个推荐量,你所获得的点赞率与转发量。这个时候你的转发量点赞量(比例)高的话再会推送下一批流量给你。

所以前面1000个点赞量很关键。

上面用工具干完数据清洗最大的一个版块是人肉再清洗,人肉清洗是为了得到热门短视频的标签。参考这部分数据是为了之后做短视频的时候去靠这个方向。大概类型有几大块!

1、舞蹈

2、高效段子

3、才艺

4、模仿

5、励志鸡汤

6、特色景点

7、恶搞

8、撩小姐姐撩小哥哥

9、正能量

10、炫技能

11、挑战

从这些热门内容标签统计出来最终满足热门的背后人性属性,因为属性才可以复用,内容不能模仿。

这里祭出大杀器,满足疯传的触发器。公式:社交货币、诱因、情绪、公共性、实用价值=传播。

在你去看所有这类短视频的时候,你去思考背后哪些关键点触发了你的行动,去点赞转发了。

二次传播的核心点,一种里利益上面的驱动,这个驱动的方式也很多比如在微信里面点赞送礼品,转发送产品,这个抖音里面也有一批这样玩的,尤其年前的时候点赞送手机疯了一段时间。这个就是典型的利益驱动。

除了这个物上面的利益驱动,还可以调动的就是社交货币的价值的六个维度。