20190506-R语言字符处理函数substr、substring、sub、gsub

2023-04-11 07:16:02Python016

20190506-R语言字符处理函数substr、substring、sub、gsub,第1张

Usage

substr(x, start, stop)

提取或替换特定位置的字符，类比chartr

Example

Usage

substring(text, first, last = 1000000L)

提取或替换特定位置的字符，类比chartr，默认last为很大的数

Example

Usage

sub(pattern, replacement, x, ignore.case = FALSE, perl = FALSE,

fixed = FALSE, useBytes = FALSE)

在向量x中寻找特定字符（pattern），将其替换为replacement，只替换第一次匹配的字符串

Arguments

Usage

gsub(pattern, replacement, x, ignore.case = FALSE, perl = FALSE,

fixed = FALSE, useBytes = FALSE)

在向量x中寻找特定字符（pattern），将其替换为replacement，gsub()是对向量里面的每个元素进行搜素，如果发现元素里面有多个位置匹配了模式，则全部进行替换

Example

sub只替换第一次匹配的字符串，gsub会替换掉所有匹配的字符串

Example

1.length(字符串/向量):返回向量中元素的个数

2.nchar(字符串/向量):返回每个元素字符串的个数

下面这个截图可以形象的说明两者之间的区别：

3.paste(向量/字符串):用于粘贴字符串，将多个字符串合并成一个:

5.paste函数连接向量和字符串，根据R语言向量化处理的逻辑，并不是将字符串添加到向量的尾部，而是向量中的每个元素分别与字符串相连。

1. substr函数用于提取字符串，很有用的函数，函数的参数分别是一个原始的字符串，一个起始点和一个结束点，函数返回起始点和结束点之间的字符串

sub函数 只进行一次替换， gsub函数 进行全局替换

2. gsub函数：向量中的每个字符的第一个字母都变成大写，括号里面写成正则表达式替换的形式，其中倒三角 ^ 表示首字母， \w 表示字符集的简写,代表所有小写字符， \U 表示转化为大写， \L 表示转化为小写,后面的 1 表示只转换一次。后面接perl逻辑值

1. grep函数用于在字符串中搜索某种模式，fixed函数是是否进行正则表达式，如果 fixed=FALSE ，则支持正则表达式；如果 fixed=TURE ,则搜索模式为一个文本字符串，返回值为匹配的下标。

结果：

1. strsplit函数用于字符串分割，根据固定规则将一个长的字符串分割为多份，在字符串处理中，分割字符串也是关键的步骤之一，函数返回列表而非向量。这是因为第一个参数的字符串可以是一个向量，向量中可以包含多个子串，返回时是列表也方便处理。

有两个字符串，我们需要生成他们的所有组合，这也叫做笛卡尔积，在实际问题中也很常用,这需要使用到 outer函数

vector：向量 numeric：数值型向量 logical：逻辑型向量 character；字符型向量 list：列表 data.frame：数据框

c：连接为向量或列表 sequence：等差序列 rep：重复

length：求长度 subset：求子集 seq，from:to， NA：缺失值 NULL：空对象 sort，order，unique，rev：排序 unlist：展平列表 attr，attributes：对象属性

mode，typeof：对象存储模式与类型 names：对象的名字属性

character：字符型向量 nchar：字符数 substr：取子串 format，formatC：把对象用格式转换为字符串 paste，strsplit：连接或拆分

charmatch，pmatch：字符串匹配 grep，sub，gsub：模式匹配与替换

complex，Re，Im，Mod，Arg，Conj：复数函数

factor：因子 codes：因子的编码 levels：因子的各水平的名字 nlevels：因子的水平个数 cut：把数值型对象分区间转换为因子

table：交叉频数表 split：按因子分组 aggregate：计算各数据子集的概括统计量 tapply：对“不规则”数组应用函数

+, -, *, /, ^, %%, %/%：四则运算 ceiling，floor，round，signif，trunc，zapsmall：舍入 max，min，pmax，pmin：最大最小值

range：最大值和最小值 sum，prod：向量元素和，积 cumsum，cumprod，cummax，cummin：累加、累乘 sort：排序 approx和approx fun：插值 diff：差分 sign：符号函数

abs，sqrt：绝对值，平方根 log, exp, log10, log2：对数与指数函数 sin，cos，tan，asin，acos，atan，atan2：三角函数

sinh，cosh，tanh，asinh，acosh，atanh：双曲函数

beta，lbeta，gamma，lgamma，digamma，trigamma，tetragamma，pentagamma，choose ，lchoose：与贝塔函数、伽玛函数、组合数有关的特殊函数

fft，mvfft，convolve：富利叶变换及卷积 polyroot：多项式求根 poly：正交多项式 spline，splinefun：样条差值

besselI，besselK，besselJ，besselY，gammaCody：Bessel函数 deriv：简单表达式的符号微分或算法微分

array：建立数组 matrix：生成矩阵 data.matrix：把数据框转换为数值型矩阵 lower.tri：矩阵的下三角部分 mat.or.vec：生成矩阵或向量 t：矩阵转置

cbind：把列合并为矩阵 rbind：把行合并为矩阵 diag：矩阵对角元素向量或生成对角矩阵 aperm：数组转置 nrow, ncol：计算数组的行数和列数 dim：对象的维向量

dimnames：对象的维名 row/colnames：行名或列名 %*%：矩阵乘法 crossprod：矩阵交叉乘积（内积） outer：数组外积 kronecker：数组的Kronecker积

apply：对数组的某些维应用函数 tapply：对“不规则”数组应用函数 sweep：计算数组的概括统计量 aggregate：计算数据子集的概括统计量 scale：矩阵标准化

matplot：对矩阵各列绘图 cor：相关阵或协差阵 Contrast：对照矩阵 row：矩阵的行下标集 col：求列下标集

solve：解线性方程组或求逆 eigen：矩阵的特征值分解 svd：矩阵的奇异值分解 backsolve：解上三角或下三角方程组 chol：Choleski分解

qr：矩阵的QR分解 chol2inv：由Choleski分解求逆

<，>，<=，>=，==，!=：比较运算符 !，&，&&，|，||，xor()：逻辑运算符 logical：生成逻辑向量 all，any：逻辑向量都为真或存在真

ifelse()：二者择一 match，%in%：查找 unique：找出互不相同的元素 which：找到真值下标集合 duplicated：找到重复元素

optimize，uniroot，polyroot：一维优化与求根

if，else，ifelse，switch：分支 for，while，repeat，break，next：循环 apply，lapply，sapply，tapply，sweep：替代循环的函数。

function：函数定义 source：调用文件 call：函数调用 .C，.Fortran：调用C或者Fortran子程序的动态链接库。 Recall：递归调用

browser，debug，trace，traceback：程序调试 options：指定系统参数 missing：判断虚参是否有对应实参 nargs：参数个数 stop：终止函数执行

on.exit：指定退出时执行 eval，expression：表达式计算 system.time：表达式计算计时 invisible：使变量不显示 menu：选择菜单（字符列表菜单）

其它与函数有关的还有：delay，delete.response，deparse，do.call，dput，environment ，，formals，format.info，interactive，

is.finite，is.function，is.language，is.recursive ，match.arg，match.call，match.fun，model.extract，name，parse，substitute，sys.parent ，warning，machine

cat，print：显示对象 sink：输出转向到指定文件 dump，save，dput，write：输出对象 scan，read.table，load，dget：读入

ls，objects：显示对象列表 rm, remove：删除对象 q，quit：退出系统 .First，.Last：初始运行函数与退出运行函数。

options：系统选项 ?，help，help.start，apropos：帮助功能 data：列出数据集分析

每一种分布有四个函数：d――density（密度函数），p――分布函数，q――分位数函数，r――随机数函数。

比如，正态分布的这四个函数为dnorm，pnorm，qnorm，rnorm。下面我们列出各分布后缀，前面加前缀d、p、q或r就构成函数名：

norm：正态，t：t分布，f：F分布，chisq：卡方（包括非中心） unif：均匀，exp：指数，weibull：威布尔，gamma：伽玛，beta：贝塔

lnorm：对数正态，logis：逻辑分布，cauchy：柯西， binom：二项分布，geom：几何分布，hyper：超几何，nbinom：负二项，pois：泊松 signrank：符号秩，

wilcox：秩和，tukey：学生化极差

sum, mean, var, sd, min, max, range, median, IQR（四分位间距）等为统计量，sort，order，rank与排序有关，其它还有ave，fivenum，mad，quantile，stem等。

R中已实现的有chisq.test，prop.test，t.test。

cor，cov.wt，var：协方差阵及相关阵计算 biplot，biplot.princomp：多元数据biplot图 cancor：典则相关 princomp：主成分分析 hclust：谱系聚类

kmeans：k-均值聚类 cmdscale：经典多维标度其它有dist，mahalanobis，cov.rob。

ts：时间序列对象 diff：计算差分 time：时间序列的采样时间 window：时间窗

lm，glm，aov：线性模型、广义线性模型、方差

函数向量字符串矩阵数组

# 上一篇：js怎么控制滚动条使div在一定区间显示

# 下一篇：使用CSS3 animation模拟gif动画，解决部分浏览器gif图卡顿问题

推荐阅读

热门文章

最新发布

标签列表

20190506-R语言字符处理函数substr、substring、sub、gsub

给您推荐相同类型的内容：