使用python3 requests和bs4进行爬虫（二）爬取文章

2023-02-26 11:50:02Python016

使用python3 requests和bs4进行爬虫（二）爬取文章,第1张

为了做到更优雅，这次抛弃了urllib库的引用，使用requests和beautifulsoup搭配的方式进行

首先构建一个请求并且响应它

然后呢到上找一篇文章试试手，看一下网页源码找到文章的div

以及找到文章内容，仔细看看内容还挺不错哈哈

可以发现所有的内容都在p标签里面，那么接下来就简单多了只需要

f5运行一下

最后使用codecs库来进行文件操作将文章保存到本地

没错使用上requests和bs4之后爬取文章的工作是那么的轻松呢

效果图

使用Python爬取公众号文章主要两种方法：

微信传送门已被封杀，现存可用的是搜狗微信搜索，2013年腾讯以39.2%的持股和52.3%的投票权，成为搜狗第一大股东，2020年腾讯全资147亿收购搜狗，可以说搜狗已是腾讯的样子，而自2013年开始搜狗搜索就接入了微信公众号数据，因此实际上也能看做第一方的搜索接口。

域名： https://weixin.sogou.com/

可以直接搜索公众号或文章关键字获取数据，但是此方法有个比较大的问题，只能搜索公众号内容，而很多公众号其实是服务号，服务号使用此方法是搜索不到任何数据的，因此需要另一种方式进行爬取。

这个接口无法匿名访问，因此需要注册一个公众号进行操作

具体操作步骤：登录微信公众号，首页选择创作图文消息，在编辑工具栏找到超链接，在公众号一栏选择其他公众号，之后输入需要获取的公众号名字进行搜索就会出现相匹配的公众号列表，最后点击所需公众号，就会以时间倒序方式显示具体文章列表，如下图：

返回数据格式，如下图：

爬取原理基本就结束了，具体接口分析过程较为简单就不列了。

由于微信公众平台登录验证较为严格，登陆时还需要进行收集扫码确认，因此确认最终使用 selenium 自动化进行登录获取 cookies 及 token 的工作，访问接口则使用 requests ，而因为详细文章数据是js动态加载出来，因此在这里依然选择通过 selenium 自动化获取页面，之后就可以通过xpath等方法获得文章内容。

资料查询中有网友称，此接口有访问频次限制，最少的出现过爬200篇文章就被封的现象，因此频率最好尽可能设置一个较大范围的随机数，且控制频率不要过多，代理无用，因为你是需要登录进行操作的。[手动狗头]

源码我想着放上来太长了，如需请留言。

公众搜狗因此文章接口

# 上一篇：c语言中status有什么作用，用法是怎样的呢？

# 下一篇：字节跳动面试难吗,应该如何应对?

给您推荐相同类型的内容：

大连java培训学校有哪些？哪一家最好？最权威？
大连的java培训学校有千锋、北大青鸟、达内等等。在选择Java培训班的时候，一定要去实地考察师资、环境、课程等情况，对于Java培训班的授课方式和老师的讲课水平进行试听来亲身体会，选择一个适合自己并且师资教育都比较好的培训班。千锋教育就有
Python中多继承的理解？
9.5.1. 多继承Python 同样有限的支持多继承形式。多继承的类定义形如下例:class DerivedClassName(Base1, Base2, Base3):在大多数情况下，在最简单的情况下，你能想到的搜索属性从父类继承的深度
怎样选择java培训
1、首先看品牌实力。良好的口碑是市场对其的认可，代表着企业的实力。我们在选择好的培训机构时，需要了解企业的品牌实力。企业品牌好，综合实力强给人的安全。2、其次看师资团队。优秀的教学老师合适的教学方法才能带出的学生。要能够将深奥的技术知识点逐
Go语言设计与实现（上）
基本设计思路：类型转换、类型断言、动态派发。iface，eface。反射对象具有的方法：编译优化：内部实现：实现 Context 接口有以下几个类型（空实现就忽略了）：互斥锁的控制逻辑：设计思路：
python和php的区别
什么是python?python是一种高级面向对象的编程语言，python具有内置的数据结构，结合动态类型和绑定，是很多程序开发的理想选择python还提供对模块和包的支持，允许系统模块化和代码重用。python只需要很少的代码就能实现很
字节跳动面试难吗,应该如何应对?
字节跳动面试相对比较难。面试的问题，其实还是看基础掌握的是否牢固，计算机网络和算法与数据结构数据库尤为重要，操作系统也是重中之重。1、应届生应将面试的岗位需要基础扎实，而且要有一定的项目经验。社招会根据工作年限和应聘的岗位询问相应的问题注
最好的python视频教程谁有
[python视频教程] lets python视频教程免费下载链接:https:pan.baidu.coms1YYn_vepCtq3CcKBD-vfnuw提取码:dxpn[python视频教程] lets python 视频教
python怎么把字符串变成数字格式化
1. python 字符与数字如何转换 python中字符与数字相互转换用chr（)即可。python中的字符数字之间的转换函数int(x [,base ]) 将x转换为一个整数long(x [,base ]) 将x转换为一
计算机二级c语言考试题目类型
全国计算机二级C语言程序设计包括40个单选题(每题一分)和三道操作题(60分)。单选题中1~10题为二级公共基础知识，单选题的11~40题是C语言的内容。操作题包括程序填空(18分)、程序改错(18分)和编程题(24分)各一题。程序填空是将
R语言中$是什么意思
$是S3类的引用方式，@是S4类的引用方式。$比较常用，@比较少用。通常我们的data.frame, list. 向量等用$就可以。S4也有例如，有个维恩包Vennerable：S4类型，想取得里面IntersectionSets，信息必
苏州Java培训哪个机构比较好
苏州现在的java培训机构有千锋教育、IT培训网、中软国际教育集团、课工场、开课吧等等，这些都是知名的品牌。千锋教育就有线上免费Java线上公开课。随着IT行业特别是Java行业的迅速发展，企业对于技术人才Java程序员的需求量与日俱增。但
R语言的语言环境
R是一套由数据操作、计算和图形展示功能整合而成的套件。包括：有效的数据存储和处理功能，一套完整的数组（特别是矩阵）计算操作符，拥有完整体系的数据分析工具，为数据分析和显示提供的强大图形功能，一套（源自S语言）完善、简单、有效的编程语言（包括
如何在c语言中实现until语句的功能？
用do while。一、C语言是一门通用计算机编程语言，应用广泛。C语言的设计目标是提供一种能以简易的方式编译、处理低级存储器、产生少量的机器码以及不需要任何运行环境支持便能运行的编程语言。二、尽管C语言提供了许多低级处理的功能，但仍然保
C程序和FPGA程序
C语言是目前世界上流行、使用最广泛的面向过程的高级程序设计语言。 C语言对操作系统和系统使用程序以及需要对硬件进行操作的场合，用C语言明显优于其它高级语言，许多大型应用软件都是用C语言编写的。C语言一共只有32个关键字,9种控制语句，程序书
如何在c语言中实现until语句的功能？
用do while。一、C语言是一门通用计算机编程语言，应用广泛。C语言的设计目标是提供一种能以简易的方式编译、处理低级存储器、产生少量的机器码以及不需要任何运行环境支持便能运行的编程语言。二、尽管C语言提供了许多低级处理的功能，但仍然保
Java入门如何学习?怎么学好Java开发?
随着社会信息的发展，Java技术已经无处不在，无论是手机软件、手机Java游戏还是电脑软件等，只要你使用到电子产品就会碰到和Java有关的东西，更多的企业正采用Java语言开发网站，而在所有程序员中，Java开发工程师就占据20%的比例，不
python简单实现基数排序算法
python简单实现基数排序算法这篇文章主要介绍了python简单实现基数排序算法,仅用4行代码即可实现基数排序算法,非常简单实用,分享给大家供大家参考。具体实现方法如下：from random import randintdef main
[python]统一转换日期格式dateutil.parser.parse
背景：我有很多很多的日志数据，每个日志里面都有日期字符串，我需要将其转换为datetime格式。问题是，这些日志里的字符串格式五花八门，有2017-05-25T05:27:30.313292255Z，有2016-07-01T00
Python实现消消乐小游戏
pre{overflow-x: auto} 实现消消乐的构成主要包括三部分：游戏主体、计分器、计时器，下面来看一下具体实现。先来看一下游戏所需 Python 库。import osimport sysimport t
python3.7怎么打开写好的程序
1、打开cmd命令行窗口，输入命令“python”，回车即可。2、在开始菜单的搜索框中输入python。3、然后在搜索结果中找到并点击“IDLE应用”，打开Python3.7shell窗口即可。我们编写好一个python程序以后如何运行呢
应届生简历c语言技能怎么写
可以写自己对c语言的掌握程度。1、能够充分理解面向对象的设计思想。2、熟练掌握java、cc++程序设计语言，掌握基本的算法原理，会利用开发平台编写高级语言程序。3、能熟练使用jsp+javabean开发模式。4、能熟练使用ecl
学java去哪个培训机构好点？
国内的java培训机构非常多，比较知名的品牌有千锋教育、动力节点、中软国际教育集团、课工场、开课吧等等。千锋教育就有线上免费Java线上公开课。值得注意的是，因为java属于新兴行业，培训机构的教学水平和师资力量参差不齐，有些机构会宣传为
C语言求二元一次方程
#include &ltstdio.h&gt#include&ltmath.h&gtint main(){ double a,b,cprintf("Please input a,b,cn"
R语言的R包及其使用
1、通过选择菜单：程序包-&gt安装程序包-&gt在弹出的对话框中，选择你要安装的包，然后确定。2、使用命令install.packages(package_name,dir)package_name:是指定要安装的包名，
python多任务之进程队列queen
python的多进程之间无法用全局变量，需要只用队列queen进行通讯。 1. 创建。q=multiprocessing.Queen(num)，num最大存放多少数据 2.进程使用队列，需要在创建进程时做为参数传进去。p=multi
Java培训课程有哪些
java作为一个主流的开发语言，应用相对比较普遍，java课程涵盖的知识内容是比较丰富多样的，所以学习起来也需要一定的时间。下面小编就详细的为大家简单的来介绍一下，java培训课程都有哪些内容。第一阶段：Java核心基础掌握Java语法基
《R语言实战》自学笔记69-重抽样和自助法
数据准备许多实际情况中统计假设（假定观测数据抽样自正态分布或者其他性质较好的理论分布）并不一定满足，比如数据抽样于未知或混合分布、样本量过小、存在离群点、基于理论分布设计合适的统计检验过于复杂且数学上难以处理等情况，这时基于随机化和
java课程分享初学者学习JavaEE都要学什么？
想学习javaee，我们发现JavaEE的学习者很多，或许是因为涉及技术多。从初学者角度介绍JavaEE都要学什么。java课程http:www.kmbdqn.com的行业分析，通过专业的角度告诉你javaEE的学习路线是该往哪个方向
python如何求出公式中模拟值
Python有很多科学计算和数学计算库可以用来求解公式中的值。常用的有numpy,scipy,sympy等。例如，使用numpy计算y = 2x^2 + 3x + 1中x = 2时的y值，可以使用如下代码:import numpy as n
GO语言商业案例（十六）：Curve-
Golang 的创建是为了实现最大的用户效率和编码效率。已经熟悉 Java 或 PHP 的程序员可以在几周内接受 Go 的培训（许多人最终会更喜欢它）。在本文中，Dewet Diener 探讨了 Golang 的优缺点，以及它的测试驱动开发

推荐阅读

热门文章

最新发布

标签列表

使用python3 requests和bs4进行爬虫（二）爬取文章

给您推荐相同类型的内容：