如何用Python抓取动态页面信息

2023-03-05 04:37:02Python014

如何用Python抓取动态页面信息,第1张

python抓取动态和静态页面基本是一样的。区别有些动态页面是有对请求头有限制(如cookie\user agent)或者是IP限制等。

如果你要抓的动态页面没有这些限制，那么完全可以用抓静态页面一样的方法下面，比如下面的：

import urllib2

url = "xxxxxx"

print urllib2.urlopen(url).read()

AJAX（Asynchronouse JavaScript And XML：异步JavaScript和XML）通过在后台与服务器进行少量数据交换，Ajax 可以使网页实现异步更新，这意味着可以在不重新加载整个网页的情况下，对网页的某部分进行局部更新。传统的网页（不使用Ajax）如果需要更新内容，必须重载整个网页页面。

因为传统的网页在传输数据格式方面，使用的是 XML 语法，因此叫做 AJAX ，其实现在数据交互基本上都是使用 JSON 。使用AJAX加载的数据，即使使用了JS将数据渲染到了浏览器中，在右键->查看网页源代码还是不能看到通过ajax加载的数据，只能看到使用这个url加载的html代码。

法1：直接分析ajax调用的接口。然后通过代码请求这个接口。

法2：使用Selenium+chromedriver模拟浏览器行为获取数据。

Selenium 相当于是一个机器人。可以模拟人类在浏览器上的一些行为，自动处理浏览器上的一些行为，比如点击，填充数据，删除cookie等。 chromedriver 是一个驱动 Chrome 浏览器的驱动程序，使用他才可以驱动浏览器。当然针对不同的浏览器有不同的driver。以下列出了不同浏览器及其对应的driver：

现在以一个简单的获取百度首页的例子来讲下 Selenium 和 chromedriver 如何快速入门：

参考：Selenium的使用

直接直接分析ajax调用的接口爬取

selenium结合lxml爬取

网页页面数据浏览器是一个

# 上一篇：js时间戳怎么转成日期格式

# 下一篇：电脑怎么改开机密码

给您推荐相同类型的内容：

div css圆角边框怎么设置
css3有一种新功能就是给div或者是图片等圆角，圆角代码怎么写你知道吗，作为一个经常写css的网站制作者，今天跟大家分享一下css圆角边框代码，当然图片圆角也是一样的，我分享的代码尽量兼容各种浏览器，包括ie、360浏览器、百度浏览器、谷
西门子冰箱电脑温控怎么调节
步骤一：夏季温度调节夏季环境温度高时，应打在弱档1-2档使用。原因是在夏季，环境温度高，而此时箱内温度每下降1度都很困难，通过箱体保温层和门封冷量散失也会加快，这样就会出现开机时间很长而停机时间却很短。这样就会导致压机在高温下长时间的运
go语言到底有什么好处
1. 部署简单Go 编译生成的是一个静态可执行文件，除了glibc外没有其他外部依赖。这让部署变得异常方便：目标机器上只需要一个基础的系统和必要的管理、监控工具，完全不需要操心应用所需的各种包、库的依赖关系，大大减轻了维护的负担。2. 并发
怎么把显卡拆下来?
问题一：怎么拆显卡。图解1.打开机箱侧盖。 2.拆下显卡显示器插座一面上面的螺丝或夹板。 3.主板与显卡下角有个夹子需要拔开。 4.向上拔出显卡。注意： 1、拆下后不要随意用手摸板子的金手指，造成接触问题的隐患。
Go数据结构篇
1、基本数据类型 bool string intint8 int16 int32 int64 uintuint8 uint16 uint32 uint64 uintptr bytealias for in
go语言怎么实现一次性上传多个文件，求代码
GetFile-----从FTP服务器上下载文件 BOOL GetFile( LPCTSTR pstrRemoteFile, LPCTSTR pstrLocalFile, BOOL bFailIfExists = TRUE, DWORD d
浏览器翻译功能在哪
需要根据不同浏览器来寻找其本身自带的翻译功能，一般情况下会在功能栏或者设置-语言中找到。1、谷歌浏览器第1步：打开设置第2步：打开高级第3步：找到语言并打开第4步：点开英语的三角，并勾选第5步：打开询问是否翻译此页面这就可以了打
6 个值得玩味的 Python 代码
先选取了 6 个自己认为值得玩味的 python代码，希望对正在学习 python 的你有所帮助。1、类有两个方法，一个是 new,一个是 init,有什么区别，哪个会先执行呢？运行结果如下：再来看另一
北大青鸟设计培训：网页开发的CSS代码怎么写？
随着Internet编程技术的不断发展，越来越多的大学毕业生加入了Web开发行业中，我们都知道Web开发需要使用css进行定位和布局。下面，沈阳北大青鸟带大家来看看如何编写css代码。前端系统的变化可以描述为每天都在变化。在短短的一年时间里
推荐几个型号的笔记本电脑。我是学动画设计的、同时也学了网络编程技术、数据结构、软件工程及应用。
我给你推荐一套配置，做什么都可以，完美组合，至少十年不会淘汰：CPUAMD 速龙II X4 6404核￥675主板华硕 P5G41C-M LX￥499内存金士顿 4GB DDR3 1333￥280硬盘希捷 500GB 7200.12
连连看JAVA源代码是什么?
importjavax.swing.*x0dx0aimportjava.awt.*x0dx0aimportjava.awt.event.*x0dx0apublicclasslianliankanimplementsActionL
计算机编程语言的编程软件需要什么语言？
一 · 编程语言及其主要用途常见的是 C Family （C系列语言），比如：C、Cpp（C++）、C Sharp（C#）、Java、Python、R、JavaScript、Objective-C、Swift、Go、Kotlin 等等。然
你感觉最惊艳的口红是哪一款，哪个色号？
女人都是口红控，如果哪一个色号没有买到，总感觉心里空落落的，所以买口红这件事就像是一见钟情，缘分到了，就会在心里埋下种子，买过的口红有很多，但是最惊艳我的口红却没几个。1、阿玛尼红管400一眼就深深地被它吸引，浓涂是深邃大气的冷调哑光复古红
专升本汉语言文学相关的网课有吗？有推荐的吗？
首先，汉语言文学专业的在职研究生很少，这个专业基本都是全日制的。教育专业的在职研究生倒是有的，比如教育硕士、对外汉语，学校的话推荐师范类大学，你人在温州，附件的学校可以看看，杭州应该有的。以上我说的是12月统考的在职研究生，属于专硕，顺利通
js 中如何取出数组中的值？
需要准备的材料分别有：电脑、html编辑器、浏览器。1、首先，打开html编辑器，新建html文件，例如：index.html，编写问题基础代码。2、在index.html中的&ltscript&gt标签，输入js代码：$
JS常见排序算法
排序算法说明:（1）对于评述算法优劣术语的说明稳定：如果a原本在b前面，而a=b，排序之后a仍然在b的前面；不稳定：如果a原本在b的前面，而a=b，排序之后a可能会出现在b的后面；内排序：所有排序操作
r语言如何添加一列变量
已知数据集a1，有N行变量新建数据集a2，b为列名a1=data.frame(b=c('a','b','c','d','e'……))输入N个
怎么让DIV固定在页面的某个位置而不随着滚动条随意滚动？
可用的方法比较多，比较常见的是使用CSS。1、使用CSSCSS让DIV固定位置不随滚动条而滚动，fixed元素的绝对位置是相对于HTML元素来说，滚动条是body元素的。（1）我们需要做的是，让body保持其原有高度，让html只有一个
js找数组中元素5种方式
1.js的indexOf()方法 var arr_data = [1,2,3] arr_data.indexOf(1)如果存在返回值的下标，不存在返回-1 2.jquery的$.inArray()方法 $.inArray
div+css为什么我的图片不能自动换行，我想让他每行只显示三个产品，但是第四个产品就是不往下面走
像这种图文混排的样式应该用dl dt dd标签来写，没有你的html代码看不太懂你怎么写的，第四张图片不换行的原因是因为图片所在的div宽度太宽了，你试着把他的宽度减小试试，这应该是ie出现的问题吧，Firefox不会出现，另外代码写的不够
电脑上怎么录制视频
按照如下步骤即可在电脑上录制视频：1、首先打开我的电脑，在我的电脑界面上，双击摄像头图标，打开摄像头。2、打开摄像头后，在弹出的摄像头对话框中点击左上角的开始录制按钮。3、视频录制完成后，点击开始录制按钮旁边的停止录制。4、视频文件会自
C语言中无符号字符型中字符型是什么意思
就是字符的意思，unsignedcharcc='a'定义一个无符号字符变量c，并初始化为字符a，字符一般都用单引号来表示。字符一共128个，也就是常见的ascii码表，每一个字符都对应一个ascii码值。无符号类型就是不
jQuery绑定事件on
jQuery中用on来绑定事件，常用写法两种写法哪个更好？ 1. $(document).on 将事件委托document， $('#idname').on 将事件绑定到.className元素上。每次docu
台式电脑屏幕上的几个按键分别是什么
电脑显示器按键作用如下：M：M是mode的缩写，意思是模式。它改变了显示的工作模式，如电影模式或文本模式。↑：将光标向上移动，角色是将光标向上移动。↓：鼠标往下移动，鼠标往下移动。E：enter是enter的缩写，意思是输入或确认。电源：
JS有没有将数字转成二进制的方法
将十进制转为二进制：var a = 10var b = a.toString(2)b即为10的二进制表示。但是注意b此时是字符串。toString()默认参数为10，即把数字转换为十进制字符串，可接受2-36整数作为参数。将二进制转为十进制
css实现表格的td里面的内容居中.
&lttdalign="center"valign="middle"&gt前一个是水平居中后一个是垂直居中对应的css写法:&lttdstyle="text-alig
javascript框架有哪些
目前来看，JS框架以及一些开发包和库类有如下几个，Dojo 、Scriptaculous 、Prototype 、yui-ext 、Jquery 、Mochikit、mootools 、moo.fxDojo （JS library and
在<c:if><c:if>里调用js
可能的原因有以下几种：确保jsp页面有引用c标签，可以通过在c:if之前${user}这样也可以输出session里的对象会打印出类包名。确保页面引用了jqueryjs页面加载的问题，js加载是有顺序的。要在dom都加载好后才能取得页面
颜色类单词
红色 red 朱红 vermeilvermilionponceau 粉红 pinksoft redrose bloom 梅红 plumcrimsonfuchsia red 玫瑰红 rose madderrose 桃红 peach bloss
Python 数据处理（二十四）—— 索引和选择
如果你想获取'A'列的第0和第2个元素，你可以这样做: 这也可以用.iloc获取，通过使用位置索引来选择内容可以使用.get_indexer获取多个索引:警告

推荐阅读

热门文章

最新发布

标签列表

如何用Python抓取动态页面信息

给您推荐相同类型的内容：