如何用Python爬虫抓取网页内容?

2023-02-14 14:39:01Python022

如何用Python爬虫抓取网页内容?,第1张

爬虫流程

其实把网络爬虫抽象开来看，它无外乎包含如下几个步骤

模拟请求网页。模拟浏览器，打开目标网站。

获取数据。打开网站之后，就可以自动化的获取我们所需要的网站数据。

保存数据。拿到数据之后，需要持久化到本地文件或者数据库等存储设备中。

那么我们该如何使用 Python 来编写自己的爬虫程序呢，在这里我要重点介绍一个 Python 库：Requests。

Requests 使用

Requests 库是 Python 中发起 HTTP 请求的库，使用非常方便简单。

模拟发送 HTTP 请求

发送 GET 请求

当我们用浏览器打开豆瓣首页时，其实发送的最原始的请求就是 GET 请求

import requests

res = requests.get('http://www.douban.com')

print(res)

print(type(res))

>>>

Python实现常规的静态网页抓取时，往往是用urllib2来获取整个HTML页面，然后从HTML文件中逐字查找对应的关键字。如下所示：

复制代码代码如下:

import urllib2

url="网址"

up=urllib2.urlopen(url)#打开目标页面，存入变量up

cont=up.read()#从up中读入该HTML文件

key1='<a href="http'#设置关键字1

key2="target"#设置关键字2

pa=cont.find(key1)#找出关键字1的位置

pt=cont.find(key2,pa)#找出关键字2的位置(从字1后面开始查找)

urlx=cont[pa:pt]#得到关键字1与关键字2之间的内容(即想要的数据)

print urlx

关键字爬虫数据网页网站

# 上一篇：python 什么是http异步请求

# 下一篇：查看python模块中所有函数

给您推荐相同类型的内容：

C语言如何让调用笔记本的USB接口啊，求实例
1.打开usb接口上的设备，或者打开usb控制器，涉及到windows的驱动访问。一般访问设备使用CreateFile打开设备，然后使用ReadFileWriteFile读写设备。2.例程：handle hFile = CreateFil
数据结构用C语言描述
#include &ltmalloc.h&gt#define maxsize 100 typedef int Datatype typedef struct{Datatype data[maxsize] in
C语言编程，要完整可运行的程序
#include&ltstdio.h&gtvoidmain(){inta[10],b[11],i,j,t,kprintf("请输入10个数字：n")for(i=0i&lt10i++)scanf(
查看python模块中所有函数
随着使用python的时间越来越长，安装的python模块也越来越多，有的模块不常用，也渐渐会忘了里面有哪些函数；或者，一个新的python模块，没有官方文档，要想知道调用哪些函数，怎么调用那些函数，于是乎就需要查看一下自己安装的pytho
新概念51单片机C语言教程的作品目录
第1篇入门篇1.1单片机概述1.1.1什么是单片机1.1.2单片机标号信息及封装类型1.1.3单片机能做什么1.1.4如何开始学习单片机1.251单片机外部引脚介绍1.3电平特性1.4二进制与十六进制1.4.1二进制1.4.2十六进制1.5
用c语言编写九九乘法口诀
#include&ltstdio.h&gtint main(){int i, j, nn为输入的乘阶数。scanf("%d", &ampn)for (i = 1i &lt= ni+
python中列表的增删改查
关于列表首先需要知道它是一系列按特定顺序排列的元素组成你可以创建包含字母表中所有字母、数字0至9或所有家庭成员姓名的列表；也可以将任何东西加入列表中，其中的元素之间可以没有任何关系。鉴于列表通常包含多个元素，给列表指定一个表示复的名称
在C语言中c% 和 d% 是表示什么意思?
%d 表示有符号十进制整数， %c 表示字符。这一类符号是“格式说明”用于格式输入与格式输出，就是我们常见的printf和scanf函数中在输入输出时，对不同类型的数据（如int,float,char等）要使用不同的格式说明。其中%d,
C语言中%什么意思
“%”在c语言中有两种释义，一是求余符号，经常会用到判断一个数是不是能被另一个整除；二是引导符，用于引导输入输出项表列的格式，C语言运算符号的种类编辑：1、算术运算符用于各类数值运算。包括加(+)、减(-)、乘(*)、除()、求余(或
C语言中怎么字符串赋值？
需要准备的材料分别有：电脑、C语言编译器。1、首先，打开C语言编译器，新建一个初始.cpp文件，例如：test.cpp。2、在test.cpp文件中，输入C语言代码：char a[20]strcpy(a, "hello"
计算机C语言有什么用啊？？
用处：C语言是一种计算机程序设计语言。它可以作为系统设计语言，编写工作系统应用程序，也可以作为应用程序设计语言，编写不依赖计算机硬件的应用程序。特征：1、C语言是高级语言。它把高级语言的基本结构和语句与低级语言的实用性结合起来。C 语言
易语言与Python哪个抢购好
易语言。python适合做框架程序，就是把其他编程语言的程序组合起来。不要用python做太多行的代码，python不适合写超长程序。易语言（EPL）是一种使用中文作为其程序代码的编程语言。它被称为“简易”，其创始人是吴涛。简易语言的早期版
python抓取网页上图片
正则表达式匹配的url有错误for x in add:print x # 这里可以看到报错的时候是 url 错误dirpath = os.path.join('C:\Users\lilinan\Desktop\新建文件夹&
请问使用Python (Pygame)在mac上写小的游戏，调用pygame.sprite.groupcollide()时的bug
一次移动是"跳过"移动速度这么多的像素,而不过逐个像素的移动方法groupcollide()是检测两个精灵组中精灵们的矩形冲突速度过快导致精灵单次移动就直接跨越了另一个精灵,就不存在两个精灵矩形的冲突,就不会检测到就像走
Python字典推导法，怎么输出嵌套字典？
实际上各种推导式的本质就是for循环, 它们之间的区别只是取值方式的不同和表达式的不同首先, 字典的取值方式有两种: 按key取值, 使用get方法取值其次, 字典推导式的表达式部分需要写成key:value 的形式如果要使用字典推导式
python语言中的如何输入编号叫什么
Python 默认脚本文件都是 ANSCII 编码的，当文件中有非 ANSCII 编码范围内的字符的时候就要使用"编码指示"来修正。一个module的定义中，如果.py文件中包含中文字符（严格的说是含有非anscii
大佬们谁有老男孩教育的Python爬虫视频教程百度云链接，万分感谢
Python入门视频教程：Python全栈开发+AI人工智能：https:ke.oldboyedu.comdetailterm_606fc3e4565c0_rGsnNW25?product_id=term_606fc3e456
c语言中sum的意思是？
这是自定义关键字，不属于C语言关键字，无固定含义。开发者可以自定义sum，一般用来表示求和变量。举例如下：#include&ltstdio.h&gtint main(){int a,b,suma=1b=1s
Python 基础知识全篇-字符串（Strings）
单引号和双引号字符串可以包含在单引号或双引号中。这种灵活的方式可以让我们在字符串中包含引号。当我们需要创建一个多行字符串的时候，可以用三个引号。如下所示：改变大小写你可以很方便的改变字符串的大小写。如下所
为什么python爬取图片时在指定的文件为空
路径有问题。Python是一种跨平台的计算机程序设计语言，是ABC语言的替代品，属于面向对象的动态类型语言，python爬取图片时在指定的文件为空是因为路径有问题，需要重新选择路径进行操作。如图提示RuntimeError，提示您需要Pyt
怎样用c语言编写ATM系统
真正的ATM系统不可能只是用C语言编写的，它应该是一套完整独立的系统，核心代码更机密，不会轻易的泄露。C语言可以写一个类似于ATM系统的框架，用以模拟ATM机上的各种操作。框架代码如下：#include&ltiostream.h
怎样把拼音转换成汉字
1首先我们在网上下载一个叫汉字转拼音的软件,又名实用中文转换器,然后进行下载。一小会就ok 了。2随便找一个下载,然后我们进行安装。3把这里的前面全部不要勾选,不然就都给您安装上了。下边路径选一下哦。4然后就开始安装了,稍等一下,一会就好了
c语言中，声明和定义有什么区别
C语言里可能经常会说：声明变量时不会分配内存，定义变量时才会分配内存。局部变量的声明即是定义：void fun(){int a = 1 既是声明，也是定义，初始值为1int b 既是声明，也是定义，初始值伪随机。}全局变量只能定义一
从C#到Python——5模块和包
本章是《从到Python》系列连载的最后一章内容较简单主要介绍Python中模块与包的使用方法如果你对这部分内容已经比较熟悉就不要再浪费时间看了写这一章只是为了整个系列完整而已没什么新的东西（本章内容主要参考了《Python精
Python中.2f是什么意思
将该浮点数float保留两位小数。Python解释器易于扩展，可以使用C语言或C++（或者其他可以通过C调用的语言）扩展新的功能和数据类型。Python 也可用于可定制化软件中的扩展程序语言。Python丰富的标准库，提供了适用于各个主要系
为什么c语言表达式中 5+12 等于5
5+12在C语言中确实等于5。原因如下：是C语言中算术运算符中的除号；该符号同时具有整数除和实数除的功能，当两个运算对象都是整数就做整数除，有一个运算对象是浮点数时就执行实数除。所谓整数除就是舍弃余数，只留下商；因此52的结果是2，
c语言中sin是啥？
C语言sin()用来计算参数x 的正玄值，然后将结果返回。返回-1 至1 之间的计算结果。例子：#include &ltmath.h&gtmain(){double answer = sin(0.5)printf(
在c语言中函数和结构体的区别
一个程序通常围绕这两个方面进行：数据存储和数据操作；结构体是一种数据类型，用来将不同类型的数据组合在一起，决定数据的存储问题（比如在内存占多大的空间来，系统怎么解释存储数据的位数据啦等等）同int， double 等编译器内置的数据类型基本
树莓派中设置Python虚拟开发环境
我们可以创建虚拟开发环境，避免开发时所使用的环境与本机环境发生冲突。首先，为开发环境创建一个子目录然后使用下面的命令创建虚拟环境目录：然后进入虚拟环境这是，我们可以升级虚拟环境中的pip: 升级完成后，查看一下pip的
在C语言里，正在执行的死循环怎么跳出
如果是for（初始化i；判断条件；i++）循环和while循环就是初始化i，程序运行一次，同时i+1在赋值给i，判断条件是否符合推出循环的条件，不满足，则在运行此循环，i在加一，一次类推，直到满足推出的条件if条件语句写错了：if(a==

推荐阅读

热门文章

最新发布

标签列表

如何用Python爬虫抓取网页内容?

给您推荐相同类型的内容：