R语言字符串2021.2.3

Python013

R语言字符串2021.2.3,第1张

1.length(字符串/向量):返回向量中元素的个数

2.nchar(字符串/向量):返回每个元素字符串的个数

下面这个截图可以形象的说明两者之间的区别:

3.paste(向量/字符串):用于粘贴字符串,将多个字符串合并成一个:

5.paste函数连接向量和字符串,根据R语言向量化处理的逻辑,并不是将字符串添加到向量的尾部,而是向量中的 每个 元素分别与字符串相连。

1. substr函数 用于提取字符串,很有用的函数,函数的参数分别是一个原始的字符串,一个起始点和一个结束点,函数返回起始点和结束点之间的字符串

sub函数 只进行一次替换, gsub函数 进行全局替换

2. gsub函数 :向量中的每个字符的第一个字母都变成大写,括号里面写成正则表达式替换的形式,其中倒三角 ^ 表示首字母, \w 表示字符集的简写,代表所有小写字符, \U 表示转化为大写, \L 表示转化为小写,后面的 1 表示只转换一次。后面接perl逻辑值

1. grep函数 用于在字符串中搜索某种模式,fixed函数是是否进行正则表达式,如果 fixed=FALSE ,则支持正则表达式;如果 fixed=TURE ,则搜索模式为一个文本字符串,返回值为匹配的下标。

结果:

1. strsplit函数 用于字符串分割,根据固定规则将一个长的字符串分割为多份,在字符串处理中,分割字符串也是关键的步骤之一,函数返回列表而非向量。这是因为第一个参数的字符串可以是一个向量,向量中可以包含多个子串,返回时是列表也方便处理。

有两个字符串,我们需要生成他们的所有组合,这也叫做笛卡尔积,在实际问题中也很常用,这需要使用到 outer函数

取字符数量的函数

length与nchar不同,length是取向量的长度

字符替换

字符串粘合函数

paste在不指定分割符的情况下,默认分割符是空格

paste0在不指定分割符的情况下,默认分割符是空

字符串截取函数

字符串替换

gsub替换匹配到的全部

sub 替换匹配到的第一个

字符串匹配

grep函数返回的是索引值

grepl函数返回的是逻辑值

match:匹配两个向量,返回x中存在的返回索引或TRUE、FALSE

match函数使用格式有如下两种:

参数详解

第一种方便设置参数,返回x中元素在table中的位置

第二种简洁,返回x中每个元素在table中是否存在

pmatch函数是一个部分匹配函数, 依次从x里面挑出元素, 对照table进行匹配, 若匹配上则剔除匹配上的值, 不再参与下次匹配, duplicate.ok可设置是否剔除对于某一个元素, 匹配一共分成三步:

如果可以完全匹配, 则认为匹配上了, 返回table中的位置

不满足上述条件, 如果是唯一部分匹配, 则返回table中的位置

不满足上述条件, 则认为没有值与其匹配上.

pmatch函数的格式

pmatch(x, table, nomatch = NA_integer_, duplicates.ok = FALSE)

由以上可知, paste() 默认连接符为空格, paste0() 连接符为空,等于 paste(sep = '')

由以上可知,当被组合对象元素个数不相等时,会依次选取元素组合,最终的组合数等于元素个数多的那个

针对变量内部元素进行拼接时,使用 x[1:n] 进行遍历,'n'小于 x 的维度

str_split_fixed(str,pattern,n) , pattern 为分隔符,如果 pattern = '' ,则将 str 拆分成一个个字符,n表示将 str 拆分n个部分,若 n 小于 str 中分隔符个数,则只有前 n-1 个(3刀4段)分隔符发挥作用,后面的分隔符不起作用