x: 数值向量,表示每个扇形的面积
labels: 字符型向量,表示各扇形面积标签
edges: 多边形的边数(圆的轮廓类似很多边的多边形)
radius: 饼图半径
main: 饼图标题
clockwise: 逻辑值,用来指示饼图各个切片是否按顺时针做出分割
angle: 设置底纹的斜率
density: 底纹的密度,默认值为 NULL
col: 是表示每个扇形的颜色,相当于调色板
[1] Robert I. Kabacoff (著). R语言实战(高涛/肖楠/陈钢 译). 北京: 人民邮电出版社.
[2] https://www.runoob.com/r/r-pie-charts.html
[3] https://zhuanlan.zhihu.com/p/80415566
样本不均衡问题是指在机器学习分类任务中,不同类型的样本占比差距悬殊。
比如训练数据有100个样本,其中只有5个正样本,其余均为负样本,这样正样本:负样本=5%:95%,训练数据中负样本过多,会导致模型无法充分学习到正样本的信息,这时候模型的正确率往往较高,但特异性却很低,即模型识别正样本的能力很差。这样的模型是无法投入实际项目中的,我们需要解决不均衡问题带来的影响。
解决样本不均衡,采用的方法是重采样。根据采样的方法,分为欠采样、过采样和组合采样。
在R语言中, ROSE 包用于处理样本不均衡问题。
安装包
加载示范数据,查看列联表。可以看到训练数据 hacide.train 出现了样本不均衡,正样本1只有20个,负样本0有980个。
欠采样会缩小训练数据。训练数据虽然正负样本均衡了,但由于原始的正样本很少,导致处理后总样本数减少很多。这个方法适用于训练数据很大,且正样本也较大的情况,可以用欠采样来减少训练数据规模,提高训练速度。
过采样会增大训练数据。该方法适用于训练数据中正样本数量较少的情况。
组合采样会同时增加正样本和减少负样本。参数 N 表示处理后样本总数,一般设置为训练数据样本数。
不均衡样本对模型的训练结果会产生较大偏差,以实际分类问题为例,对比一下处理与不处理均衡样本的结果。
从预测的结果来看,均衡处理与不均衡处理的模型准确率都很高,都超过了98%,貌似模型都很好。但均衡处理后模型的特异性达到了73.68%,未采用均衡处理的模型只有36.84%,显然 均衡处理能提高模型的特异性 。
处理样本不均衡问题是做分类问题不可或缺的的一步,针对训练数据的情况,可以采用不同的均衡处理方法。均衡处理的目的是尽可能多的且高效的利用训练数据里的信息,不至于后续训练出的模型学习的不够充分,出现较大偏差。均衡处理对于既要求准确率高,又要求特异性高的模型来说尤为重要。
资料:《Statistical Analysis of Network Data with R》
语言R常见的网络分析包:
网络分析研究大部分是描述性的工作。
网络的可视化 即是一门艺术,也是一门科学。
三元闭包体现了社会网络的“传递性”(transitivity),枚举所有节点三元组中构成三角形的比值来表征。
网络的可视化和数值特征化是网络分析的首要步骤之一。
网络可视化视图将数据的多个重要反面整合在一个图表中。
该节点在多大程度上会与同类型或者不同类型的其他节点进行匹配,可以通过一种相关性统计量(所谓的同配系数)进行量化。
将复杂系统中感兴趣的问题与合适的网络概括性度量匹配起来,是网络特征化方法起作用的关键所在。
网络中的频繁子图模式
网络聚类系数的分布,用来检验社会网路的聚集性上
sand安装包
网络数据统计分析 statistical analysis of network data
在CRAN上
G=(V,E)
节点 :vertices 或者 nodes
边:edges 或者 links
节点数量:图的阶数 order
边的数量:图的规模 size
同构图 isomorphic
无向 undirected
有向 directed graph 或者 digraph
边:有向边 directed edges 或 弧 arcs
双向 mutual
小的图形用 formulate来创建
把mg转化为wg2
Zachary 空手道俱乐部网络 (karate club network)
数据集合实际上只存在两个社团,分别以教练为中心和以主管为中心。
Lazega律师网络可视化
srt() 不能用使用 upgrade_graph()d代替
DrL算法,针对大型网络可视化设计的布局算法。
节点的节点,即社区节点(主题节点)
即一个中心节点,一其直接相连的邻居,以及这些节点至今的边。
度值不同的节点以何种方式彼此连接
图的密度
全局聚类系数
局部聚类系数
互惠性 reciprocity
二元组普查