如何利用爬虫爬微信公众号的内容？

2023-03-04 20:38:03Python09

如何利用爬虫爬微信公众号的内容？,第1张

过程很繁琐，步骤如下：

1、写按键精灵脚本，在手机上自动点击公号文章列表页，也就是“查看历史消息”；

2、使用fiddler代理劫持手机端的访问，将网址转发到本地用php写的网页；

3、在php网页上将接收到的网址备份到数据库；

4、用python从数据库取出网址，然后进行正常的爬取。

如果只是想爬取文章内容，似乎并没有访问频率限制，但如果想抓取阅读数、点赞数，超过一定频率后，返回就会变为空值，我设定的时间间隔为10秒，可以正常抓取，这种频率下，一个小时只能抓取360条，已经没什么实际意义了。

微信公众号数据储存

1、腾讯不对你在本服务中相关数据的删除或储存失败负责。

2、腾讯有权根据实际情况自行决定单个用户在本服务中数据的最长储存期限，并在服务器上为其分配数据最大存储空间等。你可根据自己的需要自行备份本服务中的相关数据。

3、如果你停止使用本服务或服务被终止或取消，腾讯可以从服务器上永久地删除你的数据。服务停止、终止或取消后，腾讯没有义务向你返还任何数据。

一直都觉得微信公众号是爬虫的理想对象，获取到的对象url在手机上展示非常的赞，广告排版都在能接受的范围内，正好最近2练手python爬虫，果断的上了。

首先分析一下搜狗微信公众号的手机端：

这里的请求非常简单分析之后可以发现基本就是：

url='http://weixin.sogou.com/wapindex/wap/0612/wap_9/%d.html'%i

变换的也就是后面的数字

然后正常使用requests去请求：

response=requests.get(url,headers=mergedHeaders)

然后就乱码了，这里我尝试了很多解码方式，但是都解决不了，当然最后折腾了好久之后发现是html的gzip压缩问题，在网络上查询基本都是urllib2的解决办法

重新查询requests的官方文档发现了我需要的：

很明显，这里说了使用response.content方法

Requests会自动解码gzip，不过返回的是byte内容，所以我们只需要将byte to String 就可以了，好，尝试一下

转换方法：

def byteToString(byteData):

'''

将byte转化为String

:parambyteData:

:return: String

'''

returnBytesIO(byteData).read().decode()

然后请求内容：

response=requests.get(url,headers=mergedHeaders)

ifresponse.headers['Content-Encoding']=='gzip':

result=BytesIO(response.content).read().decode()

returnresult

else:

returnresponse.text

问题解决

腾讯数据爬虫公众频率

# 上一篇：C语言中n==1是什么意思

# 下一篇：电脑开久了有烧焦味，是为什么，这味道闻久了有什么影响？要叫人来修吗

给您推荐相同类型的内容：

求html5+css3视频教程，百度网盘的最好
可以去H5edu看看，其HTML5培训课程融合了HTML5开发基础课程、CSS3基础课程和移动前端交互JavaScript+JQuery+Ajex等课程,从入门到精通,让开发者全面学习HTML5这是网上的文字教程：CSS3：http:w
html里面的<base>标签是干什么的。
&ltbase&gt 是基于的意思，比如&ltbase href="http:www.lanrentuku.com"&gt那么就是说，网页中所有的路径都相对 http:www.la
Js粉料由哪些组成
js防水涂料聚合物水泥基复合防水涂料是一种由高分子聚合物乳液与无机粉料构成的双组份复合型js防水涂料，混合后形成高强坚韧的涂膜，具有有机材料弹性高，无机材料耐久性好的双重优点，防水效果突出。导语：js防水涂料是一种乳胶涂料，是一种改进的js
如何用js动态写入html代码？
所谓动态写入方法就是源文件代码中原来没有内容或者需要重新改变此处的要显示的文字或内容，需要用JavaScript代码来实现。动态写入是一种很常见常用的方法。x0dx0a1、用innerHTML写入html代码：x0dx0ax0d
如何用css3画一个有边框的三角形
如果是一个正方形，我们写边时，会用到border，但我们这里讨论的三角形本身就是border，不可能再给border添加border属性，所以我们需要用到其他办法。最容易想到的，是叠加层。思路是将两个三角形叠加在一起，外层三角形稍大一些，颜
html 怎么设置单选框的样式
1、首先打开编辑器，然后新建一个html文件，编写入基本的框架。2、然后用form，input和label创建一个单项选择题。3、创建一个新的css文件，并且用link标签关联HTML文件。4、然后撤销一下原来按钮的样式。nput[typ
如何化出港风复古妆容？化好的关键是什么呢？
林青霞、关之琳，王祖贤、张曼玉、邱淑贞、周慧敏这些80,90年代的港台明星，惊艳了一个时代，每一个都风情万种。再看看她们的妆容和乔妹的妆容对比一下乔妹的妆容清新淡雅，好气色，底妆要透，邱淑贞妆容复古浓重，立体感，眉目如画。总结港风复古
golang中级进阶（二）：结构体
目录一、结构体详解 1. 结构体定义 2. 实例化结构体的7种方法二、结构体方法 1. 结构体的方法定义 2. 结构体内自定义方法的引用 3. 任意类型添加方法三、嵌套、继
学go语言有前（钱）途吗，另外工作国内好找吗
建议分两步走：1、先学习当下的一门主流语言编程，以便你比较容易的找到一份工作；2、golang的发展很快，有些北上广深的软件公司已经开始招聘以go为开发语言的职位；3、go确实是一门优秀的语言，有些特征比较类似于python，java或者C
css选择器
CSS（Cascading Style Sheet），中文译为层叠样式表，可以让设计者方便灵活地控制Web页面的外观表现。CSS是1996年由W3C审核通过并且推荐使用的。CSS的引入，就是为了使HTML语言更好地适应网页的美工设计。CS
用c语言编写一个简易的抽奖程序，
用data.txt文件保存以下内容： 13725528132 李桂荣 13725528131 李二来 13725528133 张荣刚 13725528130 荣南 13725528137 王三 13725528138 吴立 13725528
HTML <a>标签中的文字要怎么居中对齐
1、首先，我们先看看不加任何修改的时候的效果，新建a.html文件，并准备一张小标，如下。2、使用浏览器打开a.html，可以看到默认情况，是图片置顶对齐，文字置底对齐，所以通常图片高，文字低，不能水平居中对齐。3、再次编辑a.html，加
电脑怎么开机按哪个键
电脑开机需要按下主机上的启动按键，如下图：电脑显示器开机需要按电脑显示器上的电源键，如下图：电脑开机说明当按下电源开关时，电源就开始向主板和其它设备供电，此时电压还不太稳定，主板上的控制芯片组会向CPU发出并保持一个RESET（重置）信号
法令纹已经很重了，平时有哪些动作会加重法令纹呢？
大家对于皱纹尤其是法令纹的了解有着很多的误区。这源于前几天我和小姐妹的一个讨论：笑着说话会长法令纹？！这4个坏习惯会加重法令纹！学会这5招也能淡化天生法令纹！到底笑着说话会不会导致法令纹呢？我发现身边还是有挺多集美们对于法令纹有着不少的误
java 如何实现系统消息推送
消息推送方式分为两种：短连接和长连接。也就是客户端与服务器之间的数据传输交互方式不同。1、短连接又称为轮询，方式为pull。客户端定时向服务器发送请求，询问是否有数据，时间频次可以设置。这种的方式更适合web端使用，用在APP有很多弊端。2
怎么彻底删除ruby1.8，换成1.9
1、执行ruby -v确定版本2、执行whereis ruby找到ruby安装的位置。可能有多个位置。将每一个path的ruby都执行一下-v。比如 usrbinruby -v。看下哪个是你安装的1.9.3版本。假如就是usrbi
电脑初学者该买什么书?
电脑初学者该买什么书?推荐《电脑办公从入门到精通（Windows 8+Office 2010版）》：1、《电脑办公从入门到精通（windows 8+office 2010版）》以windows8操作系office2010版本为基础，
2021最好的游戏键盘推荐-游戏键盘哪个牌子好用
喜欢电竞的小伙伴们必须要拥有一款给力的游戏键盘才得劲，有着一款好的电脑键盘能给你们日常工作与生活提供非常好的使用感受，特别是玩游戏的时候，接下来就推荐几款使用舒适顺畅的游戏键盘，总会有一款适用于你。1、惠普电竞游戏键盘
电脑怎么录视频
电脑录视频的方法如下：电脑：联想电脑天逸510S。系统：Windows10。软件：爱拍3.6.01、首先先下载一个爱拍这个软件，在网站或者软件商城安装都行。2、下载完成后，打开这个就出现录屏这个页面。3、全屏模式是录电脑页面的，点下
利用CSS怎样写出三角形利用CSS+DIV怎样写
&lt!doctype html&gt&lthtml&gt&lthead&gt&ltmeta charset="utf-8"&gt&lttitle&
html模板在哪里下载呢？
html网页模板就是用已经成形的网站为框架进行套用,可以在后台进行设置网站的一些信息,把这个网站改变成自己需要的网站信息。你可以在HTML网页模板中进行下载，这种一般是静态的页面，你如果想搭建整站可以使用cms系统。网页模板就是已经做好的网
js车牌什么意思
J是济南军区；S是通讯、运输部门。JS表示济南军区所辖省军区、警备区。牌照是当地车管所发给机动车的行车凭证，旧时也指发给某些特种营业的执照。牌照就相当于车辆的身份证，没有牌照的车辆是不允许上路的。另外，民用汽车牌照上有省、直辖市、自治区的
电脑开久了有烧焦味，是为什么，这味道闻久了有什么影响？要叫人来修吗
不必要。因为焦糊味有多种情况。一是电子器件在工作时本身因热散发的气味。一是电子器件在超负荷时，会引起一些器件损坏而散发的气味。还有就是电子器件，超负荷时，引起的一些介质发生变化散发的气味。你的电脑开久了，才有焦糊味，说明只是超负荷运行了，还
Python数据分析之方差分析
设某苗圃对一花木种子制定了5种不同的处理方法，每种方法处理了6粒种子进行育苗试验。一年后观察苗高获得资料如下表。已知除处理方法不同外，其他育苗条件相同且苗高的分布近似于正态、等方差，试以95%的可靠性判断种子的处理方法对苗木生长是否有显著影
怎么在电脑上输入网址?
电脑上怎么输入网址这里怎样才能在电脑上登录网址 40分1、在电脑桌面上找到这个IE浏览器图标，鼠标左键双击它；2、在IE浏览器的地址栏（下图红色框框内）里输入想要登录的网址，输入好了再按键盘上的“Enter”键，就登录了。
使用seaweedfs搭建一个图片服务器 (上)
https:github.comchrislusfseaweedfsreleases经典论文翻译导读之《Finding a needle in Haystack: Facebook’s photo storage》http
c语言算数溢出？
四字节指的是你gmol的返回值float，你用两个float相乘结果赋值给double的sum就会触发这个警告，没啥问题可以忽略，或者你也可以将float gmol改为double gmol在c语言中逗号“,”也是一种运算符，称为逗号运算符
jsjquary 点击次数奇偶性的判断
1、你之前的答案是对的。有问题的是你全局变量的定义有问题，把你代码里的 i 变量的定义移到方法之外定义即可。2、但是比较奇怪的是，你的代码里对于i变量没有进行奇数与偶数的处理，不知道是不是你代码没有贴全。3、这个代码逻辑是比较简单的。具
在HTML网页中如何实行树状图显示呀
用以下代码结构模拟树形：&ltul&gt&ltli&gt&ltul&gt&ltli&gt&ltli&gt&ltli&gt&l
极客时间的GO语言进阶训练营怎么样？
极客时间的GO语言进阶训练营是很不错，知识内容涉及比较全面，从编程语言到中间件、系统设计再到架构都安排了相关课程，老师们在课程中不讲语法和用法，重点传递设计原理和最佳实践，讲课的过程中贴合工作场景，分享真实的干货案例，启发学员的思维让其自主

推荐阅读

热门文章

最新发布

标签列表

如何利用爬虫爬微信公众号的内容？

给您推荐相同类型的内容：