利用Python爬取数据翻页时，一共100页，我只想要5页的数据，用什么代码停止翻页呢？

2023-02-22 04:39:02Python018

利用Python爬取数据翻页时，一共100页，我只想要5页的数据，用什么代码停止翻页呢？,第1张

1、首先分析页面源代码中翻页处的特征，按规则取下一页地址适合页面地址不连续时，可通过正则表达式实现，如果页面地址为连续的，则直接按连续的地址获取数据。

2、按以上特征获取后面地址，通过urllib.request.urlopen(url)得到首页面的数据。可以通过正则表达式获取数据，也可按特征字符串定来取到数据。

3、如为规则网地址方式，可以使用线程来提高效率。

看了你这个网站，下一页每次都不一样，每一页的链接也不一样，这种你靠分析肯定是不行的，因为你永远都不知道会出来什么内容，建议你用八爪鱼采集器，这是目前最好用的网页数据采集利器，解决这种问题很轻松的。

例子如下：

item1 = Item()

yield item1

item2 = Item()

yield item2

req = Request(url='下一页的链接', callback=self.parse)

yield req

注意：使用yield时不要用return语句。

地址数据翻页都不下一页

# 上一篇：CSS的三种表示颜色的方法

# 下一篇：关于浏览器JS弹出框警告

给您推荐相同类型的内容：

电脑切屏怎么切？？
电脑切屏的具体操作方法如下：1.假设正在浏览一个网页，而你突然要切回桌面。2.拿出键盘，找到键盘上的alt键和tab键。3.键盘上先按住alt不放在按下tab键，就会出现如图所示界面，这是在按tab键选择自己的桌面即可。按住alt不松，继
如何用JS实现网页中英文切换的效果
最简单的办法就是在你的所有中文页面上，一般在导航位置加一个英文页面首页的超链接。这样用户点英文那个链接就进入英文页面了。同样的，在所有的英文页面导航位置都加一个中文首页链接。推荐你用图片做这两个链接，这样不会因为用户没有装对应的语言系统而出
关于浏览器JS弹出框警告
这个和你浏览器安全设置有关，浏览器会默认拦截弹出框。不知道你用的是那种形式，是window.open()还是window.showModalDialog()、window.showModelessDialog()。前面的方式是弹出窗体，后面
css 样式的导入的三种方式
1.行内样式行内样式只能影响它所在的标签，而且总会覆盖嵌入样式和链接样式。 &ltp style="font-size: 12pxfont-weight:boldfont-style:italiccolor:red&
js中对象一般由什么组成？
js中对象一般由属性和方法组成。js对象的分类：1、内置对象：由ES标准中定义的对象，比如：Object、Math、Date、String、Array、Number、Boolean、Function等。2、宿主对象：由JS的运行
JS写幻灯片特效
新建一个文件夹dome,在文件下新建一个文件夹img 放入5张名称为1,2,3,4,5 格式为“.jpg”的图片文件。在新建一个dome.html 文件内容如下：&lthtml&gt&lthead&
如何控制iframe 内的css
1、iframe里的也是一个独立的网页，只有它自己的css或它引用的css才对它有效。当然你可以在父页面用js来控制。2、使用css可以设置百分比，如width:100%；IFRAME 里面的内容是在IFRAME 页面中的，可以使用js精确
CSS中如何使用多个ID
先回答第一个问题：第二个选择器你应该这样写#s1:hover，#s2:hover才会让s1生效。第二个问题：我觉得想要一下子写完，推荐使用类选择器、标签选择器来做，对于有部分要改的特殊情况再用ID来写，注意ID选择器具有唯一性，而且它的优先
JS防水涂料价格是多少
在我们对房子进行建筑的过程中，往往会使用到一些涂料，来达到使家居环境美观的效果。今天小编主要针对常见的涂料之一，也就是js防水涂料，来跟大家介绍相关的知识和内容。其实js防水涂料也叫聚合物水泥防水涂料，一般都有着性能稳定以及防水寿命较长的特
C语言编程用哪个软件好？
学c语言可以用的软件推荐如下：1、TurboC是由美国Borland公司开发的一套C语言程序开发工具，Borland公司是一家专门从事软件开发、研制的大公司。该公司相继推出了一套Turbo系列软件，如TurboBASIC、TurboPasc
儿童用平板电脑推荐哪款比较好
儿童平板电脑十大品牌有步步高BBK、小霸王SUBOR、科大讯飞、华为HUAWEI、读书郎READBOY、优学派Noah、快易典、快译通、好记星OZING、文曲星。儿童平板电脑十大品牌儿童平板
浏览器是怎样解析 CSS 选择器的
首先，CSS 的读取顺序是从右向左举个例子它的读取顺序是：那么，为什么读取顺序是从右向左呢？举个例子：假如 DOM 结构如上图，假设匹配规则是.mod-nav h3 span如果从左向右
如何CSS实现网页背景三种颜色渐变效果？
页面背景颜色渐变可以分为四个部分一、从上往下渐变：body{FILTER: progid:DXImageTransform.Microsoft.Gradient(gradientType=0,startColorStr=#ffffff,e
JS 获取class 元素集合
function getByClass(oParent, sClass) { 根据class获取元素var oReasult = []var oEle = oParent.getElementsByTagName("*&quo
网站被JS劫持了该怎么处理和预防
JS劫持就是，在搜索引擎搜索你网站的关键词，你进如网站它会跳转到另外一个网站，或者有时候你看到网站的域名标题都是你的但是你打开快照却发现不是你的网站。比如我们百度seo博客，我们看到搜索结果后面有风险两个字，这就说明你的网站被别人黑了。当你
用js怎么实现把一个链接变成二维码
&ltdiv id = "qrcodeid"&gt&ltdiv&gt 生成的二维码放在此 div 中&ltscript type="textjavascript&
CSS文件在上两级的目录中，怎么链接?
假设CSS文件名为cc,则引用该CSS代码为：&ltlink rel="stylesheet" href="....cc.css"&gt追问：谢谢，我的CSS代码是 a
如何在R语言中使用SQL语句？
R中还有一个有趣的sqldf包，它可以让你用SQL来操作dataframe，这种功能能让会R的人能练习SQL，会SQL的人能练习R，不得不感叹R语言的强大技能和神奇魅力。 x0dx0a 当然也可以将R与外部数据库连接，直接在R中操作数据
怎样用CSS在table中设置浮动层
&lttd&gt &ltinput id="Text5" type="text" &gt&lttd&gt&lttd&gt &
重锤式料位计厂家
1、青岛亚正机电制造有限公司主营产品：阻旋式料位计，电容式料位计、重锤式料位计，阻旋物位计，电容物位计，阻旋料位计开关，电容料位计开关。地址：山东青岛黄岛区嵌云街4号。2、南宁普时仪表有限公司主营产品：电磁流量计，压力变送器，超声波流
做java 报表用什么框架好
你好，推荐以下几种：JasperReports是一个基于Java的开源报表工具，它可以在Java环境下像其他IDE报表工具一样来制作报表。JasperReports支持PDF、HTML、XLS、CSV和XML文件输出格式。JasperRep
js 传参为无效字符请问怎么解决
String ROOT="ROOT"String TIMETYPE="TIMETYPE"String TYPETYPE="TYPETYPE"java变量在jsp页面中定义&
酒徒的作品有哪些？
酒徒《秦》历史小说,酒徒写作第一部作品《明》架空历史,"酒徒第二部小说凭此一举成名，红透网络文学世界，被誉为“架空历史小说的开山鼻祖”。《盛唐烟云》,隋唐三部曲”之一，奠定了他在架空历史小说领域无可替代的重要地位《隋乱》（网络
R语言画图时图例字体的大小可以改吗
可以，比如：plot(1:3)legend(locator(1),legend=1:3,cex=0.5)其中参数cex=0.5将图例（及内含的文字、符号等）缩小为原来的一半R语言组合图片时图例和文字等比例缩小方法如下：par()函数；par
请问R语言里有没有做非线性VAR模型的包？
这里分享一下R语言实现VAR和SVAR的整个流程。主要步骤包括：1.单位根检验2.确定滞后阶数3.格兰杰因果检验4.模型稳定性检验5.脉冲响应6.方差分解(Johansen协整检验，如果需要的话)整个过程用到的R语言的扩展
我想在jsp页面导入同一个文件夹下的所有js文件怎么做？
一个一个加例如：&ltscript type="textjavascript" src="&lt%=basePath%&gtxxxxxx.js"&gt&l
CSS布局相关——盒模型和浮动
在CSS中，所有元素被“ 盒子 ”所包围，利用盒模型的基本原理来实现CSS准确布局，元素排列等处理 CSS广泛使用的两种盒子，其在页面流和元素之间的关系表现为不同的行为：对于定义为块级盒子（block）的元素会表现出以下行为：
CSS 打印
2017-01-31 本文主要讲解如何使用 CSS 控制打印样式。使用 CSS 可以控制文档如何正确的显示在不同的媒介 (Media) 上。其中分页媒介 (Paged Media) ，不同于连续媒介 (Continuous Me
CSS如何限制显示的文本字数
"&ltHTML&gt&lttitle&gtcss控制字数&lttitle&gt&lthead&gt&ltstyle type=""te
python 多元tuple怎样for循环
与其它大多数语言一样，Python 也拥有 for 循环。你到现在还未曾看到它们的唯一原因就是，Python 在其它太多的方面表现出色，通常你不需要它们。其它大多数语言没有像 Python 一样的强大的 list 数据类型，所以你需要亲自

推荐阅读

热门文章

最新发布

标签列表

利用Python爬取数据翻页时，一共100页，我只想要5页的数据，用什么代码停止翻页呢？

给您推荐相同类型的内容：