如何从零基础开始写一个关于搜索知乎答案的python爬虫

2023-03-22 12:08:01Python019

如何从零基础开始写一个关于搜索知乎答案的python爬虫,第1张

首先来说爬虫。

关于爬虫一个不太严谨的理解就是，你可以给爬虫程序设定一个初始的目标页面，然后程序返回目标页面的HTML文档后，从中提取页面中的超链接，然后继续爬到下一个页面中去。从这些页面的HTML文档中可以通过对标签的处理解析出你想要的具体内容。

所以我们可以这么来简单定义一个爬虫的工作过程：

抓取目标页面

解析页面文档获得目的信息

继续爬取下一个页面

存储结果

为了实现这些工作，你需要学习一些常用库的简单用法，包括但不限于：

urllib、urllib2、urllib.request、cookilib （Python的内置库，用来处理HTTP请求）

requests （第三方库，推荐使用requests来处理请求，比urllib方便一些）

re、beautifulsoup （正则表达式匹配内容、bs4解析html文档）

其次呢，因为你要跟网页的源码打交道，尤其是解析HTML文档，所以你最好对HTML和浏览器通信有点简单的了解，会使用Firebug查看源码定位信息在源码中的位置。

落实到题主给出的示例

http://www.zhihu.com/topic/19554091/questions?page=1

这是知乎数学话题全部问题的URL构成。可以看到我们只要修改最后的数字就可以访问到不同的页数。

数学话题下一共有1254页。所以你可以通过简单的对page做循环遍历获得所有问题。

（这种做法是直接构造了地址，或者你可以在爬取每一页以后从页面中得到下一页的链接，这样更像是一个爬虫）

用爬虫跟踪下一页的方法是自己模拟点击下一页连接，然后发出新的请求；

参考例子如下：

item1 = Item()

yield item1

item2 = Item()

yield item2

req = Request(url='下一页的链接', callback=self.parse)

yield req

注意：使用yield时不要用return语句。

网络爬虫只能根据你指定的url爬取网页的html代码，至于你想要包含指定内容的网页的话，只能先爬取下来网页，然后在对页面内容进行匹配(正则，也有开源工具)找到你想要的内容就可以了!顺便说一句网络爬虫不能根据关键字来爬取网页!

爬虫页面下一页你可以文档

# 上一篇：电脑如何查看主板牌子?

# 下一篇：如何用css设置表格大小

给您推荐相同类型的内容：

js两个对象比较是比较的堆内存地址吗？
是的,只有同内存地址的对象才能显示正确,{}=={}是两个非同内存地址,可以理解为,两边都是新的对象,占两个内存地址,var a={}var b=aa==btrue值传递仅仅传递的是值引用传递，传递的是内存地址，修改后会改变内存地址对应
如何设置电脑开启或关闭防火墙？
步骤如下：电脑：戴尔电脑操作系统：Windows71、电脑打开设置。如下图所示。2、进入界面后点击安全和更新。如下图所示。3、点击Windows安全中心。4、点击防火墙和网络保护。5、选择你要开启的防火墙。6、进入界面后勾选开启或关闭
电脑账户怎么切换账户
用电脑切换账户的方法如下：1、方法一：同时按住ctrl，alt，delete按键，就可以达到切换账户的界面了。2、win7系统下，单击桌面左下角的开始按钮，关机图标后面有个小三角，点击小三角，就可以看到切换账户的选项了。怎么在电脑设置2个用
css3有哪些新特性？包含哪些模块？
第 1 选择器第 2 RGBA和透明度第 3 多栏布局第 4 多背景图第 5 Word Wrap第 6 文字阴影第 7 @font-face属性第 8 圆角(边框半径)第 9 边框图片第 10 盒阴影第 11 盒子大小
js中如何点击一个按钮弹出一个file文件框
js中点击一个按钮弹出一个file文件框的步骤如下：1.在文件夹中创建一个html文件“test”。2.在test文件中添加一个html的框架。3.添加两个input，一个是button，一个是file把id设置为“open”style类型
电脑如何改变视频分辨率
更改视频分辨率的方法：1、第一步：首先需要下载一个qq影音，用QQ影音打开需要更改分辨率大小的视频，按下暂停。iknow-pic.cdn.bcebos.com1ad5ad6eddc451daa5459f7bb8fd5266d11632e
web前端，输入选择框选中状态下的css样式如何改
用css写足矣，css中有focus这个神奇的东西，难道你没有用过吗，给你个例子吧html:&ltinput type="text" placeholder="Enter Name." n
CSS编写过程中,为什么会出现Bug?
CSS本身只是一种样式表，并非可执行代码；所以不存在使用过程中出错的问题，而且完完全全按照样式表中所做来渲染网页。至于你说的BUG，应该是不同浏览器之间的差别；尤其体现在IE系列之中，以IE6尤为严重。这种BUG是浏览器设计缺陷所导致，所以
css怎样改变div中的文字？
你指的是文字大小,行高，字体；还是换成其他文字比如我定义一个类名为ziti来控制文字的css样式，可以这样写.ziti{line-height: 15px这个是改变行高font-family:"黑体"这个是改变字体
如何在java中随机生成常用汉字
** * 原理是从汉字区位码找到汉字。在汉字区位码中分高位与底位，且其中简体又有繁体。位数越前生成的汉字繁体的机率越大。 * 所以在本例中高位从171取，底位从161取，去掉大部分的繁体和生僻字。但仍然会有！！ * *@Testpu
mvc跳转到别的页
到了前台，不用考虑MVC的因素，&lta href="listpage2"&gtgo&lta&gtjs，在A页里写上&ltscript&gtfunction goB(
电脑重置后会怎样
问题一：电脑重置后会怎样什么叫重置？是重新安装系统吗？一般来说重新安装系统不会采用重新分区，所以，c盘的东东（包括如果没修改过位置的我的文档，桌面上的文件）都被覆盖了（安装系统到c盘时），其它分区的东西都在。安装版安装
电表跳闸如何重启
电表是家家户户都安装的有的一个仪器，它可以测量我们每天用了多少度电，一个月需要交多少电费。而且电表也能起到一个安全保护的功能，遇到不正常的情况时电表就会跳闸，阻断电源的传输，来保护我们的安全。但是很多人都不知道电表跳闸以后该如何重
Web前端工程师应该知道的CSS隐藏页面元素的方法
今天小编要跟大家分享的文章是关于Web前端工程师应该知道的CSS隐藏页面元素的方法。用CSS隐藏页面元素有许多种方法。你可以将opacity设为0、将visibility设为hidden、将display设为none或者将position设
左侧导航栏可显示与隐藏用js该怎么实现
1：需要获取左侧导航栏对象。2：绑定事件3：css中的显示隐藏有：3.1：display:block显示3.2：display:none隐藏3.3：opacity：1；显示3.4：opacity:：0；隐藏，但元素不会彻底消失只是透明度为0
Vue.js能做PC端单页式网站开发吗
完全可以。1、另一方面，Vue 完全有能力驱动采用单文件组件和 Vue 生态系统支持的库开发的复杂单页应用，实现PC端单页式的前端开发。2、PC端网站在不需要优先考虑SEO和首屏渲染时间时，单页式在用户体验和开发体验(开发效率)上是完胜
javascript 点击按钮触发事件
使用onclick（）点击事件触发。1、设计一个功能页面，HTML代码如下。2、此时的页面展示效果如下。3、设计功能函数，实现上图中赋值的功能。4、给按钮绑定上述函数，点击实现。5、在页面上点击函数，查看执行效果。扩展资料：onclic
CSS可否改变设置按钮的样式？怎么做呢？菜鸟求教~
1、首先创建一个txt文件，修改后缀名：把.txt改为.html，用记事本打开添加如下代码：打开浏览器，这是一个没有添加样式的button，外观不美观，而且在不同的浏览器下显示的外观是不一样的，所以我们要添加统一的样式。2、按钮样式比较多，
王者荣耀有电脑版吗
可以的，王者荣耀能用电脑玩，王者荣耀手游可以在电脑上玩。首先，下载一个软件管家或助手，类似于QQ游戏大厅或者360软件管家，都是可以下载王者荣耀电脑版的。或者下载一个模拟器然后把王者荣耀安装进去就可以了。比如：安卓模拟器。游戏背景神明乘
电脑插座接线方法
1、先剥线：首先就是需要使用剥线工具，小心的将双绞线的线头处，差不多在有十多厘米处，将线皮给剥落掉，只需要将里面的四队双绞线给露出来就可以，但是在剥皮的时候，要小心别伤到了里面的线。2、再排线：这个时候，首先要做的就是要开始进行打线。但是在
电脑进水是什么情况？
笔记本电脑不慎进水后，有两种可能的状况：一种是笔记本电脑还能正常使用、一种是已经因为短路而自动关机、无法点亮，或是不断重启。不论何种情况，均应采取下述急救措施：1.第一时间要移除相关电源装置（适配器与电池），千万不要再继续使用。2.然后要移
笔记本主板断电？线路氧化？晒太阳居然好了！！！神马情况？
　笔记本主板线路氧化的问题，应该是你笔记本受潮，或者进水所致。笔记本主板，线路氧化，是指附在PCB板上面的铜片线路氧化。主板各铜片上都附上青绿色的氧化物，氧化物是具有一定的阻抗、导电性的。因主板PCB板上，有很多密集的铜片导电线路
电脑qq如何登陆
QQ可以在手机上登录却无法在电脑上登录是因为开启了设备锁功能，具体解除步骤如下：1、打开手机QQ应用软件主页面，点击页面左上角个人头像，在打开的页面中，点击左下角“设置”按钮；2、接下来，在打开的页面中，点击“账号、设备安全”菜单项；3、
如何查看电脑上的硬盘序列号？
查看硬盘序列号方法，操作方法如下。1、首先进入系统按Win+R打开运行面板，输入cmd按回车键。2、打开“命令提示符”输入命令“diskpart”按Enter键。3、启动diskpart程序，输入list disk命令，按回车键查看电脑所
小程序开发-基础-html+css
rem由来：font size of the root element，那么rem是个单位，单位大小由它第一代老祖宗的 font-size 的大小决定。现在前端码农们为了能在各个屏幕上看到一个健康的网页在默默的牺牲着自己的健康，因为不仅要
电脑时间日期不对怎么调
调整电脑时间日期的步骤如下：工具：台式机AE128、Windows10、时间和日期1.8。1、鼠标右键任务栏右下角的时间图标，从列表中选择调整日期和时间选项。2、接下来从打开的时间和日期设置界面中，直接点击立即同步按钮，此时自动完成时间
如何把照片设置电脑屏保壁纸
1、进入MAC主界面，按F4进入应用界面，选择“系统偏好设置”。2、进入系统偏好设置界面，点击“桌面与屏幕保护程序”。3、进入桌面与屏幕保护程序设置界面，在上方选项中点击“桌面”。4、进入桌面设置界面，在列表中可点击文件夹选择，使
JS小数点怎么取整？
1.丢弃小数部分,保留整数部分 eg:parseInt(52)2.向上取整,有小数就整数部分加1 eg:Math.ceil(52)3.四舍五入. eg:Math.round(52)4.向下取整 eg:Math.floo
华为平板电脑与电脑怎么传输文件
平板与华为电脑建立连接后，可以相互传输文件，更便捷高效地办公。以华为MatePad Pro为例：一、拖拽互传文件平板与笔记本协同连接后，在共享模式下，使用笔记本鼠标在平板和笔记本间快速拖拽互传文件（例如图片、视频等）。1.平板文件传至笔记本
JavaScript代码实现图片循环滚动效果
1.概述循环滚动图片，不仅可以增添Web页面的动态效果，而且可以节省页面空间，有效地保证在有限的页面中显示更多的图片。2.技术要点主要应用setTimeout()方法实现图片的循环滚动效果。setTimeout()方法的语法格式如下：set

推荐阅读

热门文章

最新发布

标签列表

如何从零基础开始写一个关于搜索知乎答案的python爬虫

给您推荐相同类型的内容：