Usage
substr(x, start, stop)
提取或替换特定位置的字符,类比chartr
Example
Usage
substring(text, first, last = 1000000L)
提取或替换特定位置的字符,类比chartr,默认last为很大的数
Example
Usage
sub(pattern, replacement, x, ignore.case = FALSE, perl = FALSE,
fixed = FALSE, useBytes = FALSE)
在向量x中寻找特定字符(pattern),将其替换为replacement,只替换第一次匹配的字符串
Arguments
Usage
gsub(pattern, replacement, x, ignore.case = FALSE, perl = FALSE,
fixed = FALSE, useBytes = FALSE)
在向量x中寻找特定字符(pattern),将其替换为replacement,gsub()是对向量里面的每个元素进行搜素,如果发现元素里面有多个位置匹配了模式,则全部进行替换
Example
sub只替换第一次匹配的字符串,gsub会替换掉所有匹配的字符串
Example
1.length(字符串/向量):返回向量中元素的个数
2.nchar(字符串/向量):返回每个元素字符串的个数
下面这个截图可以形象的说明两者之间的区别:
3.paste(向量/字符串):用于粘贴字符串,将多个字符串合并成一个:
5.paste函数连接向量和字符串,根据R语言向量化处理的逻辑,并不是将字符串添加到向量的尾部,而是向量中的 每个 元素分别与字符串相连。
1. substr函数 用于提取字符串,很有用的函数,函数的参数分别是一个原始的字符串,一个起始点和一个结束点,函数返回起始点和结束点之间的字符串
sub函数 只进行一次替换, gsub函数 进行全局替换
2. gsub函数 :向量中的每个字符的第一个字母都变成大写,括号里面写成正则表达式替换的形式,其中倒三角 ^ 表示首字母, \w 表示字符集的简写,代表所有小写字符, \U 表示转化为大写, \L 表示转化为小写,后面的 1 表示只转换一次。后面接perl逻辑值
1. grep函数 用于在字符串中搜索某种模式,fixed函数是是否进行正则表达式,如果 fixed=FALSE ,则支持正则表达式;如果 fixed=TURE ,则搜索模式为一个文本字符串,返回值为匹配的下标。
结果:
1. strsplit函数 用于字符串分割,根据固定规则将一个长的字符串分割为多份,在字符串处理中,分割字符串也是关键的步骤之一,函数返回列表而非向量。这是因为第一个参数的字符串可以是一个向量,向量中可以包含多个子串,返回时是列表也方便处理。
有两个字符串,我们需要生成他们的所有组合,这也叫做笛卡尔积,在实际问题中也很常用,这需要使用到 outer函数
R语言之—字符串处理函数
nchar
取字符数量的函数
length与nchar不同,length是取向量的长度
# nchar表示字符串中的字符的个数
nchar("abcd")
[1] 4
# length表示向量中元素的个数
length("abcd")
[1] 1
length(c("hello", "world"))
[1] 2
chartr
字符替换
chartr(old="a", new="c", x="a123")
[1] "c123"
chartr(old="a", new="A", x="data")
[1] "dAtA"
paste和paste0
字符串粘合函数
paste在不指定分割符的情况下,默认分割符是空格
paste0在不指定分割符的情况下,默认分割符是空
# 默认以空格隔开
paste("Hello","world")
[1] "Hello world"
# 没有空格
paste0("Hello","world")
[1] "Helloworld"
# 指定分割符
paste("abc", "efg", "hijk", sep = "-")
[1] "abc-efg-hijk"
# 分别对向量的每一个元素进行连接
paste0("A", 1:6, sep = "")
[1] "A1" "A2" "A3" "A4" "A5" "A6"
# collapse参数:每一个元素操作之后,再把向量的每一个元素进行连接
paste0("A", 1:6, sep = "",collapse = "-")
[1] "A1-A2-A3-A4-A5-A6"
substr
字符串截取函数
substr(x = "hello", start = 1, stop = 2)
[1] "he"
strsplit
字符串的分割函数,可以指定分割符,生成一个list
strsplit("abc", split = "")
[[1]]
[1] "a" "b" "c"
如果要对一个向量使用该函数,需要注意。
# 分割向量的每一个元素,并取分割后的第一个元素
unlist(lapply(X = c("abc", "bcd", "dfafadf"), FUN = function(x) {return(strsplit(x, split = "")[[1]][1])}))
[1] "a" "b" "d"
gsub和sub
字符串替换
gsub替换匹配到的全部
sub 替换匹配到的第一个
# 将b替换为B
gsub(pattern = "b", replacement = "B", x = "baby")
[1] "BaBy"
gsub(pattern = "b", replacement = "B", x = c("abcb", "boy", "baby"))
[1] "aBcB" "Boy" "BaBy"
# 只替换第一个b
sub(pattern = "b", replacement = "B", x = "baby")
[1] "Baby"
sub(pattern = "b", replacement = "B", x = c("abcb", "baby"))
[1] "aBcb" "Baby"
grep和grepl
字符串匹配
grep函数返回的是索引值
grepl函数返回的是逻辑值
# 返回匹配到的元素的索引
grep(pattern = "boy", x = c("abcb", "boy", "baby"))
[1] 2
# 返回逻辑值
grepl(pattern = "boy", x = c("abcb", "boy", "baby"))
[1] FALSE TRUE FALSE
match &&pmatch &&charmatch
1、match
Usage
match(x, table, nomatch = NA_integer_, incomparables = NULL)
x %in% table
参数:
x: vector or NULL: the values to be matched. Long vectors are supported.
table : vector or NULL: the values to be matched against. Long vectors are not supported. (被匹配的值)
nomatch: the value to be returned in the case when no match is found. Note that it is coerced to integer. (没有match上的返回的值)
incomparables : a vector of values that cannot be matched. Any value in x matching a value in this vector is assigned the nomatch value. For historical reasons, FALSE is equivalent to NULL. (不同来匹配的值)
match函数类似与 %in%,不同的是match返回的是索引,而%in%返回的是逻辑值。