从零开始学Python-使用Selenium抓取动态网页数据

2023-02-24 14:34:02Python014

从零开始学Python-使用Selenium抓取动态网页数据,第1张

AJAX（Asynchronouse JavaScript And XML：异步JavaScript和XML）通过在后台与服务器进行少量数据交换，Ajax 可以使网页实现异步更新，这意味着可以在不重新加载整个网页的情况下，对网页的某部分进行局部更新。传统的网页（不使用Ajax）如果需要更新内容，必须重载整个网页页面。

因为传统的网页在传输数据格式方面，使用的是 XML 语法，因此叫做 AJAX ，其实现在数据交互基本上都是使用 JSON 。使用AJAX加载的数据，即使使用了JS将数据渲染到了浏览器中，在右键->查看网页源代码还是不能看到通过ajax加载的数据，只能看到使用这个url加载的html代码。

法1：直接分析ajax调用的接口。然后通过代码请求这个接口。

法2：使用Selenium+chromedriver模拟浏览器行为获取数据。

Selenium 相当于是一个机器人。可以模拟人类在浏览器上的一些行为，自动处理浏览器上的一些行为，比如点击，填充数据，删除cookie等。 chromedriver 是一个驱动 Chrome 浏览器的驱动程序，使用他才可以驱动浏览器。当然针对不同的浏览器有不同的driver。以下列出了不同浏览器及其对应的driver：

现在以一个简单的获取百度首页的例子来讲下 Selenium 和 chromedriver 如何快速入门：

参考：Selenium的使用

直接直接分析ajax调用的接口爬取

selenium结合lxml爬取

爬虫流程

其实把网络爬虫抽象开来看，它无外乎包含如下几个步骤

模拟请求网页。模拟浏览器，打开目标网站。

获取数据。打开网站之后，就可以自动化的获取我们所需要的网站数据。

保存数据。拿到数据之后，需要持久化到本地文件或者数据库等存储设备中。

那么我们该如何使用 Python 来编写自己的爬虫程序呢，在这里我要重点介绍一个 Python 库：Requests。

Requests 使用

Requests 库是 Python 中发起 HTTP 请求的库，使用非常方便简单。

模拟发送 HTTP 请求

发送 GET 请求

当我们用浏览器打开豆瓣首页时，其实发送的最原始的请求就是 GET 请求

import requests

res = requests.get('http://www.douban.com')

print(res)

print(type(res))

>>>

《Python数据抓取技术与实战》百度网盘pdf最新全集下载:

链接: https://pan.baidu.com/s/1qgwBk6KtXNj7juUSdg40KQ

?pwd=jj3i 提取码: jj3i

简介：Python数据抓取技术与实战主要介绍使用Python语言及其相关工具进行数据抓取的方法，通过实例演示在数据抓取过程中常见问题的解决方法。通过本书的学习，读者可以根据需求快速地编写出符合要求的抓取程序。

数据网页浏览器爬虫是一个

# 上一篇：java开发有前途吗？

# 下一篇：mac的chili或者ruby woo什么意思

给您推荐相同类型的内容：

C语言：铺地砖的问题i
#include&ltstdio.h&gtint F(int n){ int i,p p=1 for(i=1i&lt=ni++) { p*=i } return p}
数据结构 c语言魔王语言
简单地理解就是多重括号的解决办法就是：先设置一个栈，遇到左括号时，压栈，不断地压，直到遇到右括号。一旦遇到了右括号就不断地出栈，直到出一个左括号，然后把这些字符解释，解释后压到栈里去。然后再不断地压栈，直到遇到下一个右括号，如此往复。多条规
go语言如何调用c函数
直接嵌入c源代码到go代码里面package main*#include &ltstdio.h&gtvoid myhello(int i) {printf("Hello C: %dn", i)}*i
R语言read.csv函数读取数据时的一个报错
报错信息是重新将这个csv文件另存为一个新的csv文件，注意选择下面的 CSV(逗号分隔)（ .csv），而不是 CSV UTF-8 （逗号分隔）（ .csv）首先，你要加载程序包library(arules)cl
嘉兴哪里有java培训班求推荐
尽量选择面授的Java学习班Java学习一般学习一下内容1、Java开发：打好Java语言基础，深入理解Java面向对象核心思想，掌握Java集合框架、多线程、IO、网络编程以及J2SE8.0新特征2、Web及移动前端页面、Java Web
java外包复试入职的机会大吗
大。说明你已经在面试的时候刷掉一大部分人，而且问的都是一些基础性的问题，有项目经历的话会根据项目中的点着重说一下具体业务逻辑和实现技术。整体面试时间30分钟左右。java人力外包指的是由用人企业向软件人力外包公司提出java方面的用人需求，
想自学编程，从基础学起，最好先学哪个？果壳网移动版
个人建议从C语言起步进行学习编程，为什么要从C语言起步呢？下面说一下我个人的见解，希望能对大家有帮助。1、为什么要建议从C语言学起呢？首先说C语言是一门经典的编程语言，而且它现在并不过时，可以说C语言是计算机编程语言的基础，现在很多主流的编
GoLang -- Gin框架
• 何为框架：框架一直是敏捷开发中的利器，能让开发者很快的上手并做出应用，甚至有的时候，脱离了框架，一些开发者都不会写程序了。成长总不会一蹴而就，从写出程序获取成就感，再到精通框架，快速构造应用，当这些方面都得心应手的时候
Ruby和python哪个更易懂、灵活？
Ruby是非常流行的构建网站技术，最著名的是Twitter，Basecamp，Github，Airbnb，Slideshare，Groupon。Rbuy和Python都是面向对象的语言，都是动态和灵活的，这些技术的主要区别在于他们解决问题的
如何用Python爬虫抓取网页内容?
爬虫流程其实把网络爬虫抽象开来看，它无外乎包含如下几个步骤模拟请求网页。模拟浏览器，打开目标网站。获取数据。打开网站之后，就可以自动化的获取我们所需要的网站数据。保存数据。拿到数据之后，需要持久化到本地文件或者数据库等存储设备中。那么我们该
林心如晒照庆生，霍建华张罗派对细节好评，贴脸合影恩爱甜蜜，你怎么看？
林心如的生日，她在网上晒出了一组老公霍建华为她庆生的照片，还发帖道：谢谢亲爱的。可见两个人虽然已经结婚多年了，但彼此之间的感情关系却并没有随着时间的流逝而变得平淡，反而能感受到他们是很恩爱甜蜜的。在林心如晒的这组照片中，有两张是她和霍建华的
排序算法python实现
排序算法是《数据结构与算法》中最基本的算法之一。排序算法可以分为内部排序和外部排序，内部排序是数据记录在内存中进行排序，而外部排序是因排序的数据很大，一次不能容纳全部的排序记录，在排序过程中需要访问外存。常见的内部排序算法有：插入排序
数据结构 C语言相反次序打印字符串
你这个写的太乱了，错误太多了，参考我这个吧：#include&ltstdio.h&gt#include&ltmalloc.h&gt#definesizesizeof(structdate)structdate
问大家一个问题中专生学历学java难度大吗？吃苦我不怕，该怎么学，什么程度了可以去培训机构
首先如果你要自学Java知识的话，可能要学一年左右的时间才能达到做项目的程度。千锋教育就有线上免费Java线上公开课。因为Java自学起来相对比较难，正确的学习资料的获取、学习中遇到的问题以及如何合理运用学到的知识等都是自学中常会遇到的
Ruby 题：从一含有10个数组元素的数组中删除一个指定的数据，若该数据不存在，则给出提示。用while实现
public static void main(String[] args) {int [] num =new int[]{1,2,3,4,5,6,7,8,9,10}Scanner input = new Scanner(Syste
go语言web框架beego安装(go mod方式)
go语言web框架beego安装(go mod方式)_不忘初心，方得始终-CSDN博客重要:将bee命令放到GOROOTbin目录下，这步很关键 cp bee usrlocalgobin 注：或者可以将GOPAT
java名字的由来一个小故事
你好，外国人起名字非常随性，之前它们办公室外面有棵橡树，就起了橡树，结果这个名字被别的公司给注册了。后来又打算换名字，有这么两种说法：一种是开发小组开会讨论名字未果，于是一起去了一家咖啡店……；一种说法是，Java实际上是几个核心开发人员的
linux下python怎么写爬虫获取图片
跟linux有什么关系，python是跨平台的，爬取图片的代码如下：import urllib.requestimport osimport randomdef url_open(url):req=urllib.request.Reque
如何理解java是一门静态多分派且动态单分派的语言?
C++, Java 都是单分派语言。有人把 Java 的重载说成是“静态多分派”，有待商榷。重载是在编译时决定要用哪个函数，是静态的，而一般来说，分派常常是指在运行时，如何决定调用哪个函数，是动态的。单分派所调用的函数，由单个量决定，常常是
什么是C语言和C＋语言
C语言全称:TheCProgrammingLanguage，它是一门通用计算机编程语言，它是在BCPL语言上发展而来的，BCPL的作称是BasicCombinedProgrammingLanguage，因为C语言在它的基础上开发出来的，所以
r语言如何导入excel数据
R语言可以使用read.xlsx()函数来读取excel数据文件，也可以使用read.csv()函数来读取csv格式的数据文件。此外，还可以使用R包RODBC来连接数据库，从而将数据文件存储在数据库中，便于管理和操作。另外，还可以使用R语言
python日期获取秒数
1、使用new Date()获取当前日期，new Date().getTime()获取当前毫秒数2、计算公式，等于获取的当前日期减去或者加上一天的毫秒数。一天的毫秒数的计算公式：24小时*60分钟*60秒*1000毫秒，也是8640000
谷歌浏览器打不开，怎么解决？
谷歌浏览器打不开有三种原因，下载的谷歌浏览器有问题、设置问题、病毒问题。解决方法如下：准备材料：谷歌浏览器、电脑方法一：查看服务是否关闭1、win+R打开运行，输入services.msc命令，点击确定，2、打开服务，找到谷歌浏览器，
java开发有前途吗？
学java开发是否有前途可以从很多方面考虑的，推荐选择千锋教育，千锋教育成立教研学科中心，推出贴近企业需求的线下技能培训课程。采用全程面授高品质、高体验培养模式，学科大纲紧跟企业需求，拥有国内一体化教学管理及学员服务，在职业教育发展道路上不
Ruby中实例变量与类变量有什么区别？
以@开始的变量是【实例变量】，实例变量属于特定的对象。class Persondef initialize(name, gender, age)@name = name@gender = gender@age = ageendend上面
刷个go是什么
刷个go是什么开通芝麻go的作用就是在会员周期内，实际享受的优惠金额。芝麻go其实就是给我们先享受店家的优惠，享受的额度达到或者超过了会员费用，我们再支付会员费用，如果享受到的优惠达不到标，就不用支付费用。2.我们打开支付宝点击“我的”按钮
如何为Linux安装Go语言
Go语言在Centos下的安装：注意，以下命令需要以root身份，或者sudo运行。说明，如果要自定义安装位置的话，需要配置GOROOT环境变量，所以这里我们采用默认的目录进行安装，就可以不配置GOROOT环境变量了。首先去官网下载go的安
python日期获取秒数
1、使用new Date()获取当前日期，new Date().getTime()获取当前毫秒数2、计算公式，等于获取的当前日期减去或者加上一天的毫秒数。一天的毫秒数的计算公式：24小时*60分钟*60秒*1000毫秒，也是8640000
amd显卡上的那个女的！！红头发的那个！！是谁或者以谁为原型！！！？？？详细点
AMD是火红色，短发、紧身衣的Ruby MM曾是AMD显卡的代言人，只不过这几代的显卡上Ruby妹子出镜率低多了，以往用的最多的蓝宝石都把代言妹子变成迷彩涂装了。这就是经典的短发Ruby妹子，不过很快就会长出长发了GDC 2013大会上，A
java 同名的不同方法共存的情况称为什么？如何区分这些同名方法。
一般来说，分为两种情况。一是在同一个类里面有两个或两个以上的同名的方法，这些方法的名字相同，但参数不同，这种情况中叫重载。当你调用方法时，会根据你传进去的参数的类型来决定调用哪个方法。二是一个类继承了另外一个类，子类中有和父类中一样的方法，

推荐阅读

热门文章

最新发布

标签列表

从零开始学Python-使用Selenium抓取动态网页数据

给您推荐相同类型的内容：