从零开始学Python爬虫（四）：正则表达式

2023-02-23 03:47:01Python013

从零开始学Python爬虫（四）：正则表达式,第1张

Regular Expression，正则表达式，种使表达式的式对字符串进匹配的语法规则。

我们抓取到的源代码本质上就是个超的字符串，想从提取内容。正则再合适不过了。

正则的优点：速度快，效率，准确性正则的缺点：新上难度有点。

不过只要掌握了正则编写的逻辑关系，写出个提取内容的正则其实并不复杂

正则的语法：使元字符进排列组合来匹配字符串

在线测试正则表达式网址：

https://tool.oschina.net/regex/

元字符：具有固定含义的特殊符号常元字符：

量词: 控制前的元字符出现的次数

贪婪匹配和惰性匹配

这两个要着重的说下，因为我们写爬的最多的就是这个惰性匹配。

先看案例

那么接下来的问题是, 正则我会写了, 怎么在python程序中使正则呢？答案是re模块

re模块中我们只需要记住这么个功能就够我们使了。

下面一个案例，是练习用正则表达式提取豆瓣电影top250的数据并保存，一起来学一下吧。

背景：首先对于登录页面，你作为普通人类，是怎么需要输入账号和密码，才能登录后，查看到页面的。

用selenium：那么就是让selenium去定位到对应的账号输入框和密码输入框，分别输入账号和密码，再定位到登录按钮，点击登录。即可模拟人类去登录，登录后页面刷新，看到你要的内容。

你要处理的内容，属于爬虫领域。

所以你最好先去了解背景知识：

先去搞懂爬虫基础：

前言 · 爬取你要的数据：爬虫技术

再去了解如何用Python写：

如何用Python写爬虫

最后再参考

心得和总结 · Selenium知识总结

估计会用到find_element_by_id或find_element_by_xpath等方面的函数去定义你的输入框或按钮。

链接: https://pan.baidu.com/s/1DSW8IPOuu9XCAyKGy1VZmw

提取码: cqys

python爬虫课程以Python语言为基础描述了网络爬虫的基础知识，用大量实际案例及代码，介绍了编写网络爬虫所需要的相关知识要点及项目实践的相关技巧。

爬虫正则你要字符字符串

# 上一篇：r语言怎么将修改存入原来的数据

# 下一篇：r语言table显示10

给您推荐相同类型的内容：

golang排序问题求助
如果是只有这几个的话我们可以考虑自定义一个排序类型func TestSort(t *testing.T) {data := []string{"三级", "一级", "二级"}
java如何实现替换指定位置的指定字符串的功能
可以使用StringBuffer定义字符串，之后使用replace方法替换指定位置的字符串为指定的字符串内容，如下代码：publicclassDemo1{publicstaticvoidmain(String[]args){StringBu
c语言怎么求素数？
除2以外，素数皆为奇数，所以对2单独处理，从3开始，将100以内的奇数逐一进行素数考察，是则输出，不是则跳过。另设一计数变量控制换行，每输出5个素数添加一个回车。代码如下：#include "stdio.h"int
python对excel操作
Python对于Excel的操作是多种多样的，掌握了相关用法就可以随心所欲的操作数据了！操作xls文件 xlrd（读操作）： import xlrd 1、引入xlrd模块 workbook=xlrd.open_work
r语言怎么将修改存入原来的数据
r语言修改存入原来的数据的方法是使用names函数自定义修改数据列变量的名称、一次性修改dataframe所有数据列的名称。在数据处理分析过程中，分类变量的值有时候是试用数值来表示，从直观上并不能理解其含义，必须要有赋值对照表才能辅助理解。
java截取指定字符串中的某段字符如何实现？
用substring函数可以实现截取字符串。代码如下：publicclasswoo{publicstaticvoidmain(Stringargs[]){Stringstr="房估字(2014)第YPQD0006号&quo
如何看待特斯拉 CEO 马斯克当选美国国家工程院院士？
美国国家工程院（National Academy of Engineering，NAE）发布2021年度国家工程院增补院士名单，此次共有111名院士及22名外籍院士入选。其中，特斯拉以及SpaceX CEO埃隆·马斯克入选。关于获选原因，N
java入门书籍如何选择推荐几本
1，《Head First Java》java入门书籍《Head First Java》是本完整的面向对象（object-oriented，OO）程序设计和Java的学习指导。此书是根据学习理论所设计的，让你可以从学习程序语言的基础开始一直
在R语言中,参数prob和scale和df是什么意思
prob=probabilitie是概率,df=degrees of freedom 是自由度.scale(x,center = TRUE,scale = TRUE)函数scale执行中心化和标准化.若center为数字或向量,x减去cen
python如何读取单元格格式中的保留位数
这里分享下python读取单元格格式中的保留位数的操作方法。设备：华硕电脑系统：win10软件：pycharm2018.3.21、首先打开pycharm，新建一个py文件，输入“a=1.2222345a=('%.2f
java如何获取当前时间年月日时分秒
java如何获取当前时间以及格式化需要用到两个类，如下图：1.获取当前时间，并格式化为（年-月-日时：分：秒）。Date t = new Date()SimpleDateFormat df = new SimpleDateFormat
GO 一文搞懂指针和地址值的区别
go语言中的指针和地址值，在使用上常常具有迷惑性，主要是其特殊的*、&amp符号的使用，可能会让你摸不透，本文希望能讲清楚go语言的指针(pointer)和值(value)。这里先简单的对指针和地址值概念做一个定义：这
r语言table显示10
R语言数据分析利器data.table包—数据框结构处理精讲2017-06-10448R语言数据分析利器data.table包—数据框结构处理精讲R语言data.table包是自带包data.frame的升级版，用于数据框格式数据的处理，
宝塔面板的使用-轻松给服务器安装软件
宝塔面板安装教程官网：https:www.bt.cnbbsthread-19376-1-1.html注意点： 1、区分不同系统的安装命令不同。 linux系统安装命令： yum install -y wget &
Golang gRPC实现内网穿透
内网穿透即是使用公网服务器作为代理，转发内网（如办公室、家里）的网络请求使其能够在外网中被访问到。 server端监听两个端口，一个用来和接收用户的http请求，一个监听gRPC客户端，和内网服务器进行通信； client启动时连接
请问郑英文缩写是什么？谢谢了
中式音译：ZhengYingwen英式音译：EvanZheng除了直接中文拼音直接音译外，还有如下译名方法：（仅供参考）第一种方法是：起一个与中文名字“谐音”的英文名字。比如李梅，可以起May Li，“梅”与May正好谐音。下面是四个
怎么给联合主键设置外键啊
GUI界面，先右键表B，表C，选择设计，然后选择表B字段b1设置主键，表C字段c1设置主键，然后保存关闭。右键表A，选择设计，按住shift然后选择a1，a2设置为联合主键，然后右键a1列，选择关系，添加后右面点击表和列规范，弹出界面，左边
java如何获取当前时间年月日时分秒
java如何获取当前时间以及格式化需要用到两个类，如下图：1.获取当前时间，并格式化为（年-月-日时：分：秒）。Date t = new Date()SimpleDateFormat df = new SimpleDateFormat
golang+vue3开发的一个im应用
这是一个开源的前后端分离的IM网页应用。服务端： https:github.compl1998go-imweb端： https:github.compl1998web-im-appGo的三种安装方式Go有多种安
在C语言中标准输入输出语句应该如何编写操作？
Turbo C 2.0标准库提供了两个控制台格式化输入、输出函数 scanf（）；和printf（）；这两个函数可以在标准输入输出设备上以各种不同的格式读写数据。scanf（）函数用来从标准输入设备（键盘）上读数据，printf（）函数用来
Python3基础
默认情况下，Python 3 源码文件以UTF-8编码，所有字符串都是 unicode 字符串。当然你也可以为源码文件指定不同的编码：在 Python 3 中，非 ASCII 标识符也是允许的了。保
R语言中关于求一个矩阵的相关系数的问题
analyze-correlate-bivariate-选择变量OK输出的是相关系数矩阵相关系数下面的Sig.是显著性检验结果的P值，越接近0越显著。另外，表格下会显示显著性检验的判断结果，你看看表格下的解释就知道，比如“*
C语言程序设计视频教程下载地址？
《06 00上海交通大学计算机自考考研课程 C语言程序设计基础全27讲视频教程》百度网盘资源免费下载链接:https:pan.baidu.coms1scbJKnr2dLqm5KdwwimJYQ?pwd=ks7d 提取码:k
除了丧剧，哪些《美剧》更适合观看？
个人推荐这几部美剧，希望你喜欢《哈利波特》“哈利波特”电影全系列的演职员在一场特别的回顾活动中重逢，庆祝第一部电影的周年纪念，其中包括采访和演员对话。《加勒比海盗》故事发生在17世纪，传说中海盗最为活跃的加勒比海。风趣迷人的杰克·斯伯
java中text问题
添加一个Jpanel就好啦，JFrame直接添加多个组件不建议。JFrame是顶级容器，而JPanel是普通容器。包含Swing组件的程序必须包含一个顶级容器，而Swing组件不可以直接加入到顶级容器中。下面的程序供参考：JFrame
WindowsTo Go启动过程突然蓝屏
1. 显卡问题如果电脑的显卡出现问题的话，那么也会导致电脑出现异常现象，因此，可以重新安装显卡驱动试看看，一般可以解决这个问题。2. 虚拟内存如果电脑的虚拟内存不足的话，那么也会出现电脑异常的现象，尤其是在玩游戏的时候，应该可以将电脑的虚拟
求《第一行代码Java视频讲解版》全文免费下载百度网盘资源,谢谢~
《第一行代码Java视频讲解版》百度网盘pdf最新全集下载:链接: https:pan.baidu.coms1enQdBOsxCJkKCPz2UE-CwQ?pwd=t7i1 提取码: t7i1简介：第一行代码 Java 视频讲解版
Java Web 服务器的消息推送几种方案
Java Web 服务器的消息推送有以下几种方案：1. 轮询:前端使用ajax不停的发起请求获取想要的数据（最简单也是最容易耗尽服务器资源）。2. 长连接:HTTP长连接,客户端向服务端发起请求，服务端等有数据了才response，否则一直
「测试开发全栈化-Go」(1) Go语言基本了解
Go的三种安装方式Go有多种安装方式，你可以选择自己喜欢的。这里我们介绍三种最常见的安装方式：Go源码安装：这是一种标准的软件安装方式。对于经常使用Unix类系统的用户，尤其对于开发者来说，从源码安装可以自己定制。Go标准包安装：Go提供了
C语言中按位与（&）运算符是什么意思
是将二进制数按照位的对应相与，得到一个新的二进制数。1与0为0；1与1为1；0与0为0。分析如下：就是二进制的每一位相与。比如：1010 0011&amp0000 1111，结果为0000 0011。也就是与上0相当于把那位数

推荐阅读

热门文章

最新发布

标签列表

从零开始学Python爬虫（四）：正则表达式

给您推荐相同类型的内容：