R语言一键制作数据统计三线表(一)

Python014

R语言一键制作数据统计三线表(一),第1张

描述统计是统计学重要的一部分内容,尤其是在医学中的应用更广。很多医学、或者做统计的SCI文章,开头就是统计的内容,一般是由三线表的方式呈现的。之前我也只会用excel统计然后自己制作表格,但这样效率很慢。这里我们介绍一个R包---table1,可以非常简单快速的完成统计工作,并制出三线表!

安装包和示例数据

数据就是一般的描述数据,性别、status都是用数字表示的

对数据进行转化,将sex等换成字符

之后作图,分组用status,table1函数的用法具体可参考帮助函数!一般格式为~不同变量+变量+......|分类变量,data。

如果用性别做分类变量,则效果如下。

还可以为变量加上单位或者改变变量名

最后得到的表格可以复制,直接粘贴到PPT或者AI中进行编辑整理!

下节我们将继续说说table1制作统计表并添加统计分析,以及对表格的各种样式调节!

用的最多的,是求均值的mean()函数,当然这里也要提到,像sum()这种求和函数,

还有sd(x) 标准差函数,var(x) 方差函数。min()求最小值,max()求最大值。

我们来具体试试,这里使用一个向量:

test<-c(2,4,5,23,199,25,78,90,12)

求最大值

>max(test)

[1] 19

求最小值

>min(test)

求和

>sum(test)

[1] 43

求标准差,求方差

>sd(test)

[1] 65.01154

>var(test)

[1] 4226.

在来试试最重要的均值

>mean(test)

[1] 48.66667

另外中位数计算。使用median()函数

>median(test)

[1] 23

如果给定一种概率分布,通常会有四类计算问题:

计算其概率密度density (d)计算其概率分布probability(p)计算其百分位数quantile (q)随机数模拟random (r)上面四类计算对应的英文首字母,就是R语言类率分布函数的开头字母。

比如说,正态分布是norm的化,那密度函数就是dnorm(),分布函数就是pnorm(),

更有用的是用相应分布生成随机数,比如rnorm(),就会生成服从正态分布的随机数。

比如我们生成100个服从正态分布的随机数

rnorm(100)

[1] -9.064408e-01 1.026560e+00 -1.097470e+00 1.055395e+00 9.377175e-01

[6] -2.080103e-01 -3.092396e-01 -8.739942e-01 -1.242774e+00 1.102486e+00

[11] 1.082092e+00 -1.695528e+00 -5.930809e-01 -2.100800e-01 8.253859e-01

[16] -1.112551e+00 -3.960474e-01 -9.354820e-01 7.291608e-01 -3.773510e-01

[21] -3.438082e-01 -7.378688e-02 -9.047609e-01 -1.036344e+00 9.485103e-01

[26] -3.437985e-01 -2.145275e-02 1.350098e+00 -1.283633e+00 3.767240e-01

[31] 1.169566e+00 -4.325399e-01 -9.215626e-02 3.839357e-01 3.045491e-01

......

我们再用相应的频率分布直方图来看一下,这些生成的随机数:

hist(rnorm(100))

R就画出了这些随机数的频率分布图

资料:《Statistical Analysis of Network Data with R》

语言R常见的网络分析包:

网络分析研究大部分是描述性的工作。

网络的可视化 即是一门艺术,也是一门科学。

三元闭包体现了社会网络的“传递性”(transitivity),枚举所有节点三元组中构成三角形的比值来表征。

网络的可视化和数值特征化是网络分析的首要步骤之一。

网络可视化视图将数据的多个重要反面整合在一个图表中。

该节点在多大程度上会与同类型或者不同类型的其他节点进行匹配,可以通过一种相关性统计量(所谓的同配系数)进行量化。

将复杂系统中感兴趣的问题与合适的网络概括性度量匹配起来,是网络特征化方法起作用的关键所在。

网络中的频繁子图模式

网络聚类系数的分布,用来检验社会网路的聚集性上

sand安装包

网络数据统计分析 statistical analysis of network data

在CRAN上

G=(V,E)

节点 :vertices 或者 nodes

边:edges 或者 links

节点数量:图的阶数 order

边的数量:图的规模 size

同构图 isomorphic

无向 undirected

有向 directed graph 或者 digraph

边:有向边 directed edges 或 弧 arcs

双向 mutual

小的图形用 formulate来创建

把mg转化为wg2

Zachary 空手道俱乐部网络 (karate club network)

数据集合实际上只存在两个社团,分别以教练为中心和以主管为中心。

Lazega律师网络可视化

srt() 不能用使用 upgrade_graph()d代替

DrL算法,针对大型网络可视化设计的布局算法。

节点的节点,即社区节点(主题节点)

即一个中心节点,一其直接相连的邻居,以及这些节点至今的边。

度值不同的节点以何种方式彼此连接

图的密度

全局聚类系数

局部聚类系数

互惠性 reciprocity

二元组普查