20190506-R语言字符处理函数substr、substring、sub、gsub

2023-03-05 00:20:01Python011

20190506-R语言字符处理函数substr、substring、sub、gsub,第1张

Usage

substr(x, start, stop)

提取或替换特定位置的字符，类比chartr

Example

Usage

substring(text, first, last = 1000000L)

提取或替换特定位置的字符，类比chartr，默认last为很大的数

Example

Usage

sub(pattern, replacement, x, ignore.case = FALSE, perl = FALSE,

fixed = FALSE, useBytes = FALSE)

在向量x中寻找特定字符（pattern），将其替换为replacement，只替换第一次匹配的字符串

Arguments

Usage

gsub(pattern, replacement, x, ignore.case = FALSE, perl = FALSE,

fixed = FALSE, useBytes = FALSE)

在向量x中寻找特定字符（pattern），将其替换为replacement，gsub()是对向量里面的每个元素进行搜素，如果发现元素里面有多个位置匹配了模式，则全部进行替换

Example

sub只替换第一次匹配的字符串，gsub会替换掉所有匹配的字符串

Example

1.length(字符串/向量):返回向量中元素的个数

2.nchar(字符串/向量):返回每个元素字符串的个数

下面这个截图可以形象的说明两者之间的区别：

3.paste(向量/字符串):用于粘贴字符串，将多个字符串合并成一个:

5.paste函数连接向量和字符串，根据R语言向量化处理的逻辑，并不是将字符串添加到向量的尾部，而是向量中的每个元素分别与字符串相连。

1. substr函数用于提取字符串，很有用的函数，函数的参数分别是一个原始的字符串，一个起始点和一个结束点，函数返回起始点和结束点之间的字符串

sub函数 只进行一次替换， gsub函数 进行全局替换

2. gsub函数：向量中的每个字符的第一个字母都变成大写，括号里面写成正则表达式替换的形式，其中倒三角 ^ 表示首字母， \w 表示字符集的简写,代表所有小写字符， \U 表示转化为大写， \L 表示转化为小写,后面的 1 表示只转换一次。后面接perl逻辑值

1. grep函数用于在字符串中搜索某种模式，fixed函数是是否进行正则表达式，如果 fixed=FALSE ，则支持正则表达式；如果 fixed=TURE ,则搜索模式为一个文本字符串，返回值为匹配的下标。

结果：

1. strsplit函数用于字符串分割，根据固定规则将一个长的字符串分割为多份，在字符串处理中，分割字符串也是关键的步骤之一，函数返回列表而非向量。这是因为第一个参数的字符串可以是一个向量，向量中可以包含多个子串，返回时是列表也方便处理。

有两个字符串，我们需要生成他们的所有组合，这也叫做笛卡尔积，在实际问题中也很常用,这需要使用到 outer函数

R语言之—字符串处理函数

nchar

取字符数量的函数

length与nchar不同，length是取向量的长度

# nchar表示字符串中的字符的个数

nchar("abcd")

[1] 4

# length表示向量中元素的个数

length("abcd")

[1] 1

length(c("hello", "world"))

[1] 2

chartr

字符替换

chartr(old="a", new="c", x="a123")

[1] "c123"

chartr(old="a", new="A", x="data")

[1] "dAtA"

paste和paste0

字符串粘合函数

paste在不指定分割符的情况下，默认分割符是空格

paste0在不指定分割符的情况下，默认分割符是空

# 默认以空格隔开

paste("Hello","world")

[1] "Hello world"

# 没有空格

paste0("Hello","world")

[1] "Helloworld"

# 指定分割符

paste("abc", "efg", "hijk", sep = "-")

[1] "abc-efg-hijk"

# 分别对向量的每一个元素进行连接

paste0("A", 1:6, sep = "")

[1] "A1" "A2" "A3" "A4" "A5" "A6"

# collapse参数：每一个元素操作之后，再把向量的每一个元素进行连接

paste0("A", 1:6, sep = "",collapse = "-")

[1] "A1-A2-A3-A4-A5-A6"

substr

字符串截取函数

substr(x = "hello", start = 1, stop = 2)

[1] "he"

strsplit

字符串的分割函数，可以指定分割符，生成一个list

strsplit("abc", split = "")

[[1]]

[1] "a" "b" "c"

如果要对一个向量使用该函数，需要注意。

# 分割向量的每一个元素，并取分割后的第一个元素

unlist(lapply(X = c("abc", "bcd", "dfafadf"), FUN = function(x) {return(strsplit(x, split = "")[[1]][1])}))

[1] "a" "b" "d"

gsub和sub

字符串替换

gsub替换匹配到的全部

sub 替换匹配到的第一个

# 将b替换为B

gsub(pattern = "b", replacement = "B", x = "baby")

[1] "BaBy"

gsub(pattern = "b", replacement = "B", x = c("abcb", "boy", "baby"))

[1] "aBcB" "Boy" "BaBy"

# 只替换第一个b

sub(pattern = "b", replacement = "B", x = "baby")

[1] "Baby"

sub(pattern = "b", replacement = "B", x = c("abcb", "baby"))

[1] "aBcb" "Baby"

grep和grepl

字符串匹配

grep函数返回的是索引值

grepl函数返回的是逻辑值

# 返回匹配到的元素的索引

grep(pattern = "boy", x = c("abcb", "boy", "baby"))

[1] 2

# 返回逻辑值

grepl(pattern = "boy", x = c("abcb", "boy", "baby"))

[1] FALSE TRUE FALSE

match &&pmatch &&charmatch

1、match

Usage

match(x, table, nomatch = NA_integer_, incomparables = NULL)

x %in% table

参数：

x: vector or NULL: the values to be matched. Long vectors are supported.

table : vector or NULL: the values to be matched against. Long vectors are not supported. (被匹配的值)

nomatch: the value to be returned in the case when no match is found. Note that it is coerced to integer. (没有match上的返回的值)

incomparables : a vector of values that cannot be matched. Any value in x matching a value in this vector is assigned the nomatch value. For historical reasons, FALSE is equivalent to NULL. (不同来匹配的值)

match函数类似与 %in%，不同的是match返回的是索引，而%in%返回的是逻辑值。

字符串向量函数元素的是

# 上一篇：微信小程序开发教程

# 下一篇：go语言到底有什么好处

推荐阅读

热门文章

最新发布

标签列表

20190506-R语言字符处理函数substr、substring、sub、gsub

给您推荐相同类型的内容：