如何用Python爬虫抓取网页内容?

2023-04-30 01:44:02Python020

如何用Python爬虫抓取网页内容?,第1张

爬虫流程

其实把网络爬虫抽象开来看，它无外乎包含如下几个步骤

模拟请求网页。模拟浏览器，打开目标网站。

获取数据。打开网站之后，就可以自动化的获取我们所需要的网站数据。

保存数据。拿到数据之后，需要持久化到本地文件或者数据库等存储设备中。

那么我们该如何使用 Python 来编写自己的爬虫程序呢，在这里我要重点介绍一个 Python 库：Requests。

Requests 使用

Requests 库是 Python 中发起 HTTP 请求的库，使用非常方便简单。

模拟发送 HTTP 请求

发送 GET 请求

当我们用浏览器打开豆瓣首页时，其实发送的最原始的请求就是 GET 请求

import requests

res = requests.get('http://www.douban.com')

print(res)

print(type(res))

>>>

Python用做数据处理还是相当不错的，如果你想要做爬虫，Python是很好的选择，它有很多已经写好的类包，只要调用，即可完成很多复杂的功能，此文中所有的功能都是基于BeautifulSoup这个包。

1 Pyhton获取网页的内容(也就是源代码)

page = urllib2.urlopen(url)

contents = page.read()

#获得了整个网页的内容也就是源代码 print(contents)

url代表网址，contents代表网址所对应的源代码，urllib2是需要用到的包，以上三句代码就能获得网页的整个源代码

2 获取网页中想要的内容(先要获得网页源代码，再分析网页源代码，找所对应的标签，然后提取出标签中的内容)

抓取js动态生成的内容的页面有两种基本的解决方案

1用dryscrape库动态抓取页面

js脚本是通过浏览器来执行并返回信息的，所以，抓取js执行后的页面，一个最直接的方式就是用python模拟浏览器的行为。WebKit 是一个开源的浏览器引擎，python提供了许多库可以调用这个引擎，dryscrape便是其中之一，它调用webkit引擎来处理包含js等的网页！

2 selenium web测试框架

selenium是一个web测试框架，它允许调用本地的浏览器引擎发送网页请求，所以，它同样可以实现抓取页面的要求。

网页爬虫源代码浏览器内容

# 上一篇：cssscale方法文字模糊怎么解决

# 下一篇：计算机方面的书籍有哪些？

给您推荐相同类型的内容：

r语言脚本运行不出来
r语言脚本运行不出来的原因是没有安装R引擎。根据查询相关公开信息得：在使用R脚本之前，用户必须向本地主机中安装R引擎。R是一种专门用于数据分析和统计的脚本语言，广泛应用在每一个需要统计和数据分析的领域。PowerBI支持R脚本，两者强强结合
css中定位position有哪几个属性值
absolute，生成绝对定位的元素，相对于 static 定位以外的第一个父元素进行定位；元素的位置通过 "left", "top", "right" 以及 "bot
jsa防水跟js的区别
js比较稀，耐水和强度也比jsa差一些。1、js涂料比较稀，而JSA涂料比较粘稠。2、js涂料的耐水性没有JSA涂料耐水性能好。成膜后的js涂料强度比JSA涂料的强度会小一些。1、js抗压强度高，可用于迎水面防水面防水。2、体积稳定，防止龟
什么是js防水涂料
JS防水涂料是什么呢？它指的是聚合物水泥防水涂料，又称JS复合防水涂料。其中，J就是指聚合物，S水泥（“JS”为“聚合物水泥”的拼音字头）。与水泥按合理比例混合使用形成高强坚韧的涂膜，具有有机材料弹性高，无机材料耐久性好的双重优点，防水效
div css边框描边后移位了求大神
你可以看看把边框全加上去是什么情况，因为预览往下移动一行说不定时表格上面一行本来就占那么多空间第二检查下标签有没有闭合比如&lttr&gt&lttr&gt写成了&lttr&gt&am
js中常用方法以及document.readyState 判断页面是否加载完成 complete和interactive
js中常用方法以及document.readyState 判断页面是否加载完成 complete和interactive 传回XML 文件资料的目前状况。　基本语法 intState ＝ xmlDocument.readyState
Dreamweaver中怎么用CSS样式来设置文本域的宽高？
1.新建网页文件。2.在head里插入&ltstyle type="textcss"&gt#area { width:300pxheight:20px}&ltstyle&gt，表示设置
计算机方面的书籍有哪些？
学操作系统的书有：《计算机操作系统》讲的比较详细，在配上《计算机操作系统》学习指导与题解一书，可以巩固学和总结所以的东西，也可以对自己做测试。《计算机组成原理》是讲计算机系统，主要是有关硬件方面的比较详细，而且分篇细说，比如说系统总线，存储
css设计表格时插入表格的快捷键是
Ctrl+Alt+T。查询百度题库显示，css设计表格时插入表格的快捷键是Ctrl+Alt+T。层叠样式表(英文全称：CascadingStyleSheets)是一种用来表现HTML（标准通用标记语言的一个应用）或XML（标准通用标记语言的
kilig是什么意思？
没有Kilig这个单词，只有killing。一、释义：1、n. 故意杀人谋杀 2、adj. 使人筋疲力尽的 3、v. 杀死；弄死；导致死亡；毁灭；破坏；二、读音：英[ˈkɪlɪŋ]，美[ˈkɪl]三、例句1、This
js防水是什么材料
防水涂料属于家装的隐蔽工程，如果材料没选好的话，日后很有可能出现漏水现象，甚至会引发邻里之间的矛盾。而市面上的防水材料种类众多，其中js防水属于新型绿色环保材料，深受广大消费者的喜爱，那么js防水是什么材料呢？有哪些优势呢？一、js防水是
js原生是否有虚拟dom
js原生是有虚拟dom地，构建出js虚拟DOM树的代码是：构造虚拟DOM对象类function Element(tagName, props, children){this.tagName=tagNamethis.props =
自动提示添加到收藏夹栏的JS代码
＜script language=javascript&gt ＜!--function Addme(){url = "http:www.this.net"你自己的主页地址title = "
css文件中如何设置text样式
设置css文件中text样式首先打开操作软件这里用DW编辑工具：取一个css名字为text；&lt!DOCTYPE html&gt&lthtml&gt&lthead&gt&ltme
json中怎么取出对象的属性值啊？
json中取出对象的属性值步骤如下：1、打开vscode，创建一个测试页面JsonTest.html，用于演示在js中如何获取json对象的属性集合。2、在测试页面中，定义一个js变量，将其赋值为json格式的字符串，用于模拟从后台返回过
js如何判断网页是在手机QQ内置浏览器中打开？求代码！
如果是在QQ浏览器中打开的，在最上面的来源中是可以看到位置的啊，并且这个好像也只能在QQ浏览器中才可以打开的，这里涉及的多一些，所以每次无论是下载软件还是搜索，都是可以找到自己需要的呢mqqapi:forwardurl?url_pre
CSS中图片怎么置顶
在html中让图片置顶，需要设置图片中的div属性,设定div中的padding-top属性。padding-top: 0设置div中无填充，对象置顶。案例设置方法如下：&lthtml&gt&ltbody&g
电动机的分类？
1．按工作电源分类根据电动机工作电源的不同，可分为直流电动机和交流电动机。其中交流电动机还分为单相电动机和三相电动机。 2．按结构及工作原理分类电动机按结构及工作原理可分为直流电动机，异步电动机和同步电动机。同步电动机还可分为
js中有什么方法能把获取的本地时分秒转化成毫秒
JS原生态的针对日期时间的方法中，没有直接将分和秒转换为毫秒的。它的getMilliSeconds也是获取当前时间的毫秒数。所以我们需要自己做一个转换。可以用getMinutes和getSeconds先获取到相应的分和秒，然后将分*60*1
css,用一张大图做页面背景，同时在背景图片大概在水平方向中部抠出一个小矩形，这个矩形是用来做链接
背景图片居中，如果你指的是body的背景，那么背景图片的css为center就行了。然后再看你的小矩形的位置，假设你的页面只有这么一个元素，那么直接设定这个小矩形的宽度，然后css为margin:0 auto如果上边还有边距，你可以自己调整
如何用c语言画图，举几个最简单的例子
首先需要绘图函数的头文件在TC2.0中是graphics.h然后需要初始化图形模式.在利用绘图函数矩形:bar圆形:circle直线:line等等。你可以到graphics.h文件中去看这些函数的参数举个例子#include &lt
如何把CSS样式表加密？？
CSS样式表加密，一般没有加密，只是可以防止别人直接下载你的CSS文件。因为CSS文件需要应用到HTML标签上，只要浏览器能解析，那么通过浏览器自带的工具都可以查看到的。一般加密javascript文件，用代码混淆、加密的方式再压缩，这样别
如何用R编一个子函数实现逻辑斯蒂回归的牛顿算法
##说明逻辑回归属于概率统计的分类算法模型的算法，是根据一个或者多个特征进行类别标号预测。在R语言中可以通过调用logit函数执行逻辑回归分类算法并预测输出概率。通过调用glm函数将family参数也就是响应分布指定为binominal（二
css如何选中奇数行
odd代表奇数，even是偶数。假设您的选择器是li的话，那么写法如下:li:nth-child(odd) {color: blue}这样您奇数行的li标签文字颜色就是蓝色的了。在CSS中可使用:nth-child()选择器来实现表格隔
C语言程序设计视频教程下载地址？
《06 00上海交通大学计算机自考考研课程 C语言程序设计基础全27讲视频教程》百度网盘资源免费下载链接:https:pan.baidu.coms1scbJKnr2dLqm5KdwwimJYQ?pwd=ks7d 提取码:k
python如何自定义词云
推荐使用jieba模块来实现分词，WordCloud来绘制词云。1234567891011121314151617181920212223242526272829303132# -*- coding: utf-8 -*-from PIL i
CSS样式表在网页制作中的作用
CSS样式是一种用来表现HTML（标准通用标记语言的一个应用）或XML（标准通用标记语言的一个子集）等文件样式的计算机语言。CSS能够对网页中的对象的位置排版进行像素级的精确控制，支持几乎所有的字体字号样式，拥有对网页对象和模型样式编辑的能
r语言没有season这个函数
你是想问r语言有没有season这个函数吗？r语言没有season这个函数，r语言的函数包括：1、ts()。2、plot()。3、start()。4、end()。5、frequency()。6、window()。7、ma()。8、stl()
电脑硬件升级都需要更换什么？
CPU：cpu越强电脑运行速度越快，但是鉴于现在CPU性能过剩，如果不是跑大型计算程序或者玩大型游戏，一般CPU都够用，换更强的CPU对电脑整体速度提升不大。内存：所有电脑运行时的程序其实都在内存里运行，所以提高内存运行频率和加大内存容量
R语言进行PCoA分析
#PCoA 分析在R语言中进行主要依赖于以下得包，进行这个分析得主要可以应用于形态学数据得相似与差异性分析。library(ade4)library(ggplot2)library(RColorBrewer)library(vegan)这里

推荐阅读

热门文章

最新发布

标签列表

如何用Python爬虫抓取网页内容?

给您推荐相同类型的内容：