使用R语言完成一个关于血糖的数据分析，要求以及部分截图如下，求用的到哪些函数和要点

2023-03-27 16:14:02Python010

使用R语言完成一个关于血糖的数据分析，要求以及部分截图如下，求用的到哪些函数和要点,第1张

函数是对一些程序语句的封装。换句话说，编写函数，可以减少人们对重复代码书写，从而让R脚本程序更为简洁，高效。同时也增加了可读性。一个函数往往完成一项特定的功能。例如，求标准差sd,求平均值，求生物多样性指数等。R数据分析，就是依靠调用各种函数来完成的。但是编写函数也不是轻而易举就能完成的，需要首先经过大量的编程训练。特别是对R中数据的类型，逻辑判别、下标、循环等内容有一定了解之后，才好开始编写函数。对于初学者来说，最好的方法就是研究现有的R函数。因为R程序包都是开源的，所有代码可见。研究现有的R函数能够使编程水平迅速提高。

1.length(字符串/向量):返回向量中元素的个数

2.nchar(字符串/向量):返回每个元素字符串的个数

下面这个截图可以形象的说明两者之间的区别：

3.paste(向量/字符串):用于粘贴字符串，将多个字符串合并成一个:

5.paste函数连接向量和字符串，根据R语言向量化处理的逻辑，并不是将字符串添加到向量的尾部，而是向量中的每个元素分别与字符串相连。

1. substr函数用于提取字符串，很有用的函数，函数的参数分别是一个原始的字符串，一个起始点和一个结束点，函数返回起始点和结束点之间的字符串

sub函数 只进行一次替换， gsub函数 进行全局替换

2. gsub函数：向量中的每个字符的第一个字母都变成大写，括号里面写成正则表达式替换的形式，其中倒三角 ^ 表示首字母， \w 表示字符集的简写,代表所有小写字符， \U 表示转化为大写， \L 表示转化为小写,后面的 1 表示只转换一次。后面接perl逻辑值

1. grep函数用于在字符串中搜索某种模式，fixed函数是是否进行正则表达式，如果 fixed=FALSE ，则支持正则表达式；如果 fixed=TURE ,则搜索模式为一个文本字符串，返回值为匹配的下标。

结果：

1. strsplit函数用于字符串分割，根据固定规则将一个长的字符串分割为多份，在字符串处理中，分割字符串也是关键的步骤之一，函数返回列表而非向量。这是因为第一个参数的字符串可以是一个向量，向量中可以包含多个子串，返回时是列表也方便处理。

有两个字符串，我们需要生成他们的所有组合，这也叫做笛卡尔积，在实际问题中也很常用,这需要使用到 outer函数

宽数据是指数据集对所有的变量进行了明确的细分，各变量的值不存在重复循环的情况也无法归类。数据总体的表现为变量多而观察值少。每一列为一个变量，每一行为变量所对应的值。例如s1-s10为变量名：

长数据是指数据集中的变量没有做明确的细分，即变量中至少有一个变量中的元素存在值严重重复循环的情况（可以归为几类），表格整体的形状为长方形，即变量少而观察值多。一列包含了所有的变量，而另一列则是与之相关的值。例如S包含了所有的变量名：

长数据与宽数据之间的转换通常是作图需要，宽数据格式无法利用ggplot做出图形。例如分组柱状图等均需要长数据。此外，当数据清洗完成后，导入某些软件时，例如导入SPSS软件进行方差分析或者相关性分析等时候，宽数据格式会更好。因此需要对数据进行长宽格式相互转换。

目前常用的转换方式有两种，分别是手动复制粘贴和软件辅助(本文仅涉及R语言：R语言主要有tidyr包和reshape2包)。如数据量小的话，手动复制粘贴也是可以的；但当数据量十分庞大时，利用软件转换还是比较方便的。本文介绍R语言的tidyr包和reshape2包，掌握好这两个包的转换方法，数据前处理将会轻松很多。

可以通过R语言判断两种方法转化后的数据是否完全一致

可以用R语言判断两种方法转化后的数据是否完全一致，返回TRUE则为完全相等

由于data_wide_s的s1-s10并非按照数字顺序排列,因此有FALSE,但实际上是没有问题的

通过这里也可以看到，两种方法转换的数据观测值数和变量数一致，说明没有问题。

[1] https://blog.csdn.net/Ray_zhu/article/details/78679913

[2] https://cran.r-project.org/web/packages/tidyr/index.html

[3] https://cran.r-project.org/web/packages/reshape2/index.html

字符串函数向量数据变量

# 上一篇：电脑缓存怎么设置

# 下一篇：家用台式电脑联网有几种方法？