网络数据的统计分析-R语言实战

Python012

网络数据的统计分析-R语言实战,第1张

资料:《Statistical Analysis of Network Data with R》

语言R常见的网络分析包:

网络分析研究大部分是描述性的工作。

网络的可视化 即是一门艺术,也是一门科学。

三元闭包体现了社会网络的“传递性”(transitivity),枚举所有节点三元组中构成三角形的比值来表征。

网络的可视化和数值特征化是网络分析的首要步骤之一。

网络可视化视图将数据的多个重要反面整合在一个图表中。

该节点在多大程度上会与同类型或者不同类型的其他节点进行匹配,可以通过一种相关性统计量(所谓的同配系数)进行量化。

将复杂系统中感兴趣的问题与合适的网络概括性度量匹配起来,是网络特征化方法起作用的关键所在。

网络中的频繁子图模式

网络聚类系数的分布,用来检验社会网路的聚集性上

sand安装包

网络数据统计分析 statistical analysis of network data

在CRAN上

G=(V,E)

节点 :vertices 或者 nodes

边:edges 或者 links

节点数量:图的阶数 order

边的数量:图的规模 size

同构图 isomorphic

无向 undirected

有向 directed graph 或者 digraph

边:有向边 directed edges 或 弧 arcs

双向 mutual

小的图形用 formulate来创建

把mg转化为wg2

Zachary 空手道俱乐部网络 (karate club network)

数据集合实际上只存在两个社团,分别以教练为中心和以主管为中心。

Lazega律师网络可视化

srt() 不能用使用 upgrade_graph()d代替

DrL算法,针对大型网络可视化设计的布局算法。

节点的节点,即社区节点(主题节点)

即一个中心节点,一其直接相连的邻居,以及这些节点至今的边。

度值不同的节点以何种方式彼此连接

图的密度

全局聚类系数

局部聚类系数

互惠性 reciprocity

二元组普查

文件包含三列数据:来源地、目的地、及call数量

我们都知道可视化网络,需要准备两个数据文件:

接下来基于此数据集准备点和边列表文件

至此,简单的边和点列表已经准备好了,我们接下来通过几个R包来可视化下

这是R中绘制网络图的一个基本R包,这里主要用到 graph_from_data_fram() 函数。更多关于此包绘图的细节可参考这个帖子 Network Analysis and Visualization with R and igraph (kateto.net) ,介绍的十分详细。

这两个R包目前相对比较流行,可以对network数据进行操作和可视化

ggraph包还有更多好玩的样式,详情参考: https://www.data-imaginist.com/2017/ggraph-introduction-layouts/ , 根据个人的数据去选择最合适的展现形式即可。

这两款R包都是基于浏览器的JavaScript可视化库,用于交互式的展示图形,这里我们还用到刚才的示例数据来展示。

常用来快速创建交互式桑基图、和其它种类的网络图等,核心的函数即 forceNetwork()

制作桑基图

该包绘制更加方便,

我们也可以为网络中的边添加方向,用到 layout_with_fr 方式