JS正则表达式详解

JavaScript018

JS正则表达式详解,第1张

RegExp是JS的正则表达式对象,实例化一个RegExp对象有 字面量 构造函数 2种方式。

字面量实例化RegExp对象

var reg=/js/gi

开始和结束的斜线/是正则表达式的边界,//中间的文本是正则表达式文本,后面的gi是正则表达式的修饰符。

构造函数实例化RegExp对象

var reg=new Regex(‘js’,’gi’)

第一个参数是正则表达式文本,第二个参数是正则表达式修饰符。

global:RegExp 对象是否具有标志 g。

ignoreCase:RegExp 对象是否具有标志 i。

lastIndex:一个整数,标示开始下一次匹配的字符位置。

multiline:RegExp 对象是否具有标志 m。

source:正则表达式的源文本。

RegExp 对象有 3 个方法:test()、exec() 以及 compile()。

test()

test() 方法检索字符串中的指定值。返回值是 true 或 false。

示例:

var reg=/js/gi

var result=reg.test(‘I like js’)

结果:true

exec()

exec() 方法检索字符串中的指定值。返回值是被找到的值。如果没有发现匹配,则返回 null。

示例:

var reg=/js/gi

var result=reg.exec(‘I like JS’)

结果:JS

compile()

compile() 方法用于改变 RegExp。

compile() 既可以改变检索模式,也可以添加或删除第二个参数。

g:global全文搜索,如果不添加此参数,搜索到第一个匹配就会停止

i:ignore case 不区分大小写,默认是区分大小写的

m:multiple lines 多行搜索,默认只搜索第一行

正则表达式文本部分包含 原义文本字符 元字符, 其中的原义文本字符代表字符本身意义的字符,如abc123之类的字符。

元字符代表有特殊含义非字母字符,如\b、\w、\d、+、*、? 等。

常用的元字符

更多的JS正则元字符请参考: http://www.runoob.com/regexp/regexp-metachar.html

一般情况下正则表达式中的一个字符对应字符串中的一个字符,如表达式ab的含义是ab。

表达式中用 [] 来定义一个字符类,表示可以匹配[]里面的这类字符,是一个泛指,而不是一一对应的关系。

如表达式[abc123],表示有其中一个字符串都可以匹配。

在字符类里面使用横线-连接2个数字或者字母就可以构建一个范围类,如[a-zA-z0-9-]表示可以匹配26个大小写字母和0-9的全部数字以及横线-。

注意,要匹配横线”-“,必须把横线放在最后面。

预定义类可以理解为JS默认给我们写好的范围类,让我们可以使用一个简单的元字符来使用它。如”\w”就是一个预定义类,它等价于范围类[A-Za-z0-9_];“.”可以匹配除 “\n” 之外的任何单个字符。

边界包含2种,一种是以字符串开始或结尾的边界,另一种是单词边界

量词表示可以匹配连续多次的元字符

JS正则表达式默认是贪婪模式匹配,它会以最多匹配原则进行查找,非贪婪模式可以让表达式以最少匹配原则进行查找。

非贪婪模式只需要在量词后面加上”?”即可,如”123456789″字符串想以3个数字为一组进行匹配表达式写法/\d{3,5}?/g。

表达式中用 () 来定义一个分组,使元字符可以作用于一个表达式字符串组合,如/(js|php){3}/gi。

表达式中的每一个分组匹配的内容都是一个可以捕获的变量,可以使用$1、$2、$3… 来取值,如表达式/(\d{4})-(\d{2})-(\d{2})/中包含$1、$2、$3。如果想忽略分组匹配的内容,需要在分组前面增加“?:”,就可以得到分组匹配之外的内容。

前瞻就是正则表达式后面加上断言部分,它不但要匹配表达式部分,还需要满足断言部分,匹配的结果不会包含断言部分。

正向前瞻 exp(?=assert) 如 “\w(?=\d)”

负向前瞻 exp(?!assert) 如 “\w(?!\d)”

match()

stringObject.match(regexp)

match() 方法可在字符串内检索指定的值,或找到一个或多个正则表达式的匹配。

如果 regexp 没有标志 g,那么 match() 方法就只能在 stringObject 中执行一次匹配。

如果没有找到任何匹配的文本, match() 将返回 null。

否则,它将返回一个数组,其中存放了与它找到的匹配文本有关的信息。该数组的第 0 个元素存放的是匹配文本,而其余的元素存放的是与正则表达式的子表达式匹配的文本。

search()

stringObject.search(regexp)

search() 方法不执行全局匹配,它将忽略标志 g。它同时忽略 regexp 的 lastIndex 属性,并且总是从字符串的开始进行检索,这意味着它总是返回 stringObject 的第一个匹配的位置。

replace()

stringObject.replace(regexp/substr,replacement)

字符串 stringObject 的 replace() 方法执行的是查找并替换的操作。它将在 stringObject 中查找与 regexp 相匹配的子字符串,然后用 replacement 来替换这些子串。如果 regexp 具有全局标志 g,那么 replace() 方法将替换所有匹配的子串。否则,它只替换第一个匹配子串。

replacement 可以是字符串,也可以是函数。如果它是字符串,那么每个匹配都将由字符串替换。但是 replacement 中的 $ 字符具有特定的含义。如下表所示,它说明从模式匹配得到的字符串将用于替换。

split()

stringObject.split(separator,howmany)

如果 separator 是包含子表达式的正则表达式,那么返回的数组中包括与这些子表达式匹配的字串(但不包括与整个正则表达式匹配的文本)

正则表达式语法语意测试工具: https://regexper.com/

for 循环在平时开发中使用频率最高的,前后端数据交互时,常见的数据类型就是数组和对象,处理对象和数组时经常使用到 for 遍历,因此需要彻底搞懂这 5 种 for 循环。它们分别为:

1、for

for 循环是出现最早,也是应用最普遍的一个遍历,能够满足绝大多数的遍历。可以遍历 数组、对象、字符串,示例:

2、for ... in

for ... in 是在 ES5 中新增的,以任意顺序迭代一个对象的除Symbol以外的可枚举属性,包括继承的可枚举属性。

3、for ... of

for ... of 语句在可迭代对象(包括 Array、Map、Set、String、TypedArray、arguments 对象等等)上创建一个迭代循环,调用自定义迭代钩子,并为每个不同属性的值执行语句。

4、for await...of

创建一个循环,该循环遍历异步可迭代对象以及同步可迭代对象,包括内置的 String、Array,类数组对象(arguments 或 nodeList),TypedArray, Map, Set 和用户定义的异步/同步迭代器。

它使用对象的每个不同属性的值调用要执行的语句来调用自定义迭代钩子。

类似于 await 运算符一样,该语句只能在一个async function 内部使用

5、forEach

forEach 是ES5版本发布的,按升序为数组中含有效值的每一项执行一次回调函数,那些已删除或者未初始化的项将被跳过(例如在稀疏数组上),一般认为是 普通for循环 的加强版。

6、map

遍历时可以返回一个新数组,新数组的结果是原数组中每个元素都调用一次提供的函数后返回的值。

1、使用场景差异

for循环是最早最原始的循环遍历语句,for 内部定义一个变量,按照条件进行循环遍历,通常是数组的长度,当超过长度时就停止循环,一般遍历的都是数组或类数组。

遍历对象时,由于对象没有长度,所以使用 Object.keys() 获取对象的所有属性,以数组形式返回。

for / in主要是用来遍历对象上的可枚举属性,包括原型对象上的属性,按任意顺序进行遍历,遍历对象时获取到的是属性的键值,遍历的是数组,数组的下标当做键值。

for / of用于遍历可迭代对象的数据,包括 Array、Map、Set、String、TypedArray、arguments 对象等等。

for await...of用于遍历异步可迭代对象,该语句只能在一个async function 内部使用。

forEach 是 for 的加升级版,使用更简单,携带参数更多,但本质还是数组的循环,每个元素都执行一次回调,不会改变原数组。

map是给原数组每个元素都执行一次回调,返回一个新数组,不会改变原数组。

2、功能差异

forEach、map 不支持跳出循环,其他不支持。

for await ... of 能够支持异步操作,其他的不支持。

对于纯对象的遍历, for ... in 枚举更方便。

对于数组遍历,如果不需要索引,可以直接使用 for...of 获取值,还可支持 break 或 return 如果还需要索引,使用 forEach 更适合,但不支持 return。

如果是一个数组映射成另一个数组,使用 map 最合适。

3、性能差异

在测试环境、测试数据条件一致的情况下,性能排序为:

for >for of >forEach >map >for in。

for 因为没有额外的函数调用和上下文,所以性能是最快的。

for ... of 具有 iterator 接口的数据结构,可以使用它来迭代成员,直接读取键值。

forEach 是 for 的语法糖,还有许多的参数和上下文,因此会慢一些。

map 因为它返回的是一个等长的全新数组,数组创建和赋值产生的性能开销较大。

for...in 性能最差,因为需要列举对象的所有属性,有转化过程,开销比较大。

在项目开发中,我们应该根据实际需求,去选择一个合适的 for 遍历。以下是一些使用建议:

如果需要把数据映射成另外一个数组,如变成对应布尔值,推荐使用 map ,不会修改原数组,使用语法简单。

数组遍历时,可以使用 for 、forEach 或 for...of。

遍历的是纯对象时,推荐使用 for ... in 。

如果是需要对迭代器遍历,推荐使用 for ... of。

如果是在数组中筛选符合条件的数组,使用 fillter 。