记者从北京市海淀区人民法院获悉,因认为刷宝APP采用技术手段或人工方式获取抖音APP短视频及评论并向公众提供的行为构成不正当竞争,北京微播视界科技有限公司(下称微播公司)将北京创锐文化传媒有限公司(下称创锐公司)、成都力奥文化传播有限公司(下称力奥公司)诉至法院。在案件审理过程中,微播公司提出行为保全申请,要求创锐公司、力奥公司立即停止采用技术手段或人工方式获取来源于抖音APP中的视频文件、评论内容并通过刷宝APP向公众提供的行为。北京海淀法院于6月28日依法做出行为保全裁定,支持了微播公司的行为保全申请。
微播公司称,其为抖音APP的开发者和运营者,通过投入高额的运营成本、提供优质的原创内容在同类产品中形成竞争优势,微播公司对抖音APP中的短视频及评论享有合法权益。二被申请人作为同业竞争者,在其共同运营的刷宝APP中向公众提供非法抓取自抖音APP的短视频及用户评论,已取证的短视频数量达5万余条。二被申请人的上述行为削弱了微播公司的竞争优势,违反了反不正当竞争法第二条的规定,构成不正当竞争。
可以使用一个专业的爬虫开发框架scrapy来实现你这一个需求,核心工作就是三步:定义item类,开发spider类,开发pipeline。具体实现细节可以参考《疯狂Python讲义》这本书,书里面讲的非常详细,清楚,我就是照这本书做过一个类似的例子最近王和李的离婚闹得沸沸扬扬,相信大伙们都已经吃了不少的瓜。本文结合李的第一篇文章发文下面的网友们的评论来看看大家到底怎么看待这件事。
数据来自该地址: https://weibo.com/5977512966/L6w2sfDXb#comment
爬取的下面的全部评论:
微博的网页属于Ajax渲染,当我们向下滑动的时候会显示的评论,地址栏的URL不变,需要找到实际的请求URL。
1、右击【检查】,找到【Network】
2、确定每页的内容URL
这里是首页部分
滑动之后显示每页内容的URL;
3、每页的URL地址
从第二页开始的URL地址多的部分是max_id,刚好这个参数的值是前一页的返回内容:
4、介绍第一页的爬取
比如我们可以获取第一个用户的相关信息:
最终我们可以看到第一页爬取的数据展示:
参考上面的逻辑可以爬取到微博下面的全部评论
导入需要的库:
查看我们爬取到数据的基本信息,我们导入前5行数据:
基本信息:查看数据的shape形状,总共是47638行,8个字段,并且不存在缺失值。
将我们爬取到的格林威治形式的时间转成熟悉的标准化时间形式:
国内的省份中北京、广东、上海、江苏都是吃瓜的大省份!
果然:女性真的很爱吃瓜