如何使用R计算香农熵？

2023-02-22 21:08:02Python017

如何使用R计算香农熵？,第1张

1.1948 年，香农提出了“ 信息熵 ”(shāng)；

2.信息量的度量就等于不确定性的多少。即：要搞懂一个非常非常不确定（gaoleng）的女孩（或是说我们一无所知的女神），就需要了解大量的信息（喜欢吃啥，衣品，喜欢的偶像）。相反，如果我们对某件事已经有了较多的了解（女闺蜜/青梅竹马的），我们不需要太多的信息就能把它搞清楚。（我尽力了～）

library(entropy)

因为我的数据集有683个基因，所以每一行计算香农熵共683次

y=rep(0,683)

for (i in 1:683){ y[i]=entropy(forentropy[i,],method=c("CS"))}

这时候已经变成是你想要的数据了～

write.table(y, file ="CS_Entropy.txt", sep =",", row.names =FALSE, col.names =FALSE)

就是Excel打开这个香农熵值的表格，复制黏贴到原来的Excel表格中（高端操作就是用cbind到原来的数据集中）

能够解决问题的方法，就是好方法～

这个操作，其实基本上可以用于对任何“感兴趣”函数，对自己的数据集“操作”一下～

不打赏，不点赞，你们还想不想我写了，呜呜呜～～～

1.百度百科香农熵：https://baike.baidu.com/item/香农熵；

一般地， TOPSIS综合评价法主要包含两个步骤：计算权重和计算相对接近度。如需详细了解 TOPSIS综合评价法的原理和方法，请自行百度，网上有许多非常详尽的原理说明和案例讲解。

根据熵权法确定各个指标的权重；计算各指标信息熵，指标的信息熵越小，则该指标表达信息的不确定性小，在综合评价中对决策的帮助更大，即应该有较大的权重。熵权法是一种客观的赋予权重的方法，它通过各个指标所提供的信息不确定性来确定各指标的权重

根据权重加权规范化指标属性矩阵后，确定正理想方案Amax和负理想方案 Amin，计算各备选方案与Amax 、Amin的距离，以评估与正负理想方案的接近程度，根据相对接近度确定优先次序。其中计算距离一般使用欧式距离。

按照惯例，导入需要使用的包 data.table 、 plyr 。然后载入使用的数据，我们简单看一下案例数据情况。

其中的字段target即为目标字段，我们需要对其含有的8个方案（A~H）进行综合评价排序，选择其中的最优方案。该数据集中的指标均为正向指标。正向指标表示指标的数值越高越好，负向指标则表示指标的数值越低越好，这决定了该指标在进行权重计算时的处理方式。

计算权重的第一步是计算各个指标的熵值，由于我们用到的指标均是正向指标，所以选择自定义函数 entropy_positive 即可。如果指标既存在正向指标又存在负向指标，则可分开进行计算。自定义函数情况如下：

调用函数并完成权重的计算，x1~x8的权重依次为：11.10%、6.61%、28.19%、7.08%、11.88%、8.11%、11.94%、15.09%，计算过程如下：

在将指标向量规范化后，利用熵值法得到的权重计算得到加权标准化矩阵，然后提取正理想方案和负理想方案并计算出各个方案距离正负理想方案的距离，最终根据计算得到距离比值进行排序。具体计算过程如下：

至此，我们就完成了用 TOPSIS综合评价法进行多对象多指标的最优对象选择，输出的结果如下，显然在这八个方案中，方案A为最优方案。

是一个预测模型，分为回归决策树和分类决策树，根据已知样本训练出一个树模型，从而根据该模型对新样本因变量进行预测，得到预测值或预测的分类

从根节点到叶节点的一条路径就对应着一条规则．整棵决策树就对应着一组表达式规则。叶节点就代表该规则下得到的预测值。如下图决策树模型则是根据房产、结婚、月收入三个属性得到是否可以偿还贷款的规则。

核心是如何从众多属性中挑选出具有代表性的属性作为决策树的分支节点。

最基本的有三种度量方法来选择属性

1. 信息增益（ID3算法）

信息熵

一个信源发送出什么符号是不确定的，衡量它可以根据其出现的概率来度量。概率大，出现机会多，不确定性小；反之不确定性就大。不确定性函数f是概率P的减函数。两个独立符号所产生的不确定性应等于各自不确定性之和，即f(P1,P2)=f(P1)+f(P2)，这称为可加性。同时满足这两个条件的函数f是对数函数，即

在信源中，考虑的不是某一单个符号发生的不确定性，而是要考虑这个信源所有可能发生情况的平均不确定性。因此，信息熵被定义为

决策树分类过程

2、增益率（C4.5算法）

由于信息增益的缺点是：倾向于选择具有大量值的属性，因为具有大量值的属性每个属性对应数据量少，倾向于具有较高的信息纯度。因此增益率使用【信息增益/以该属性代替的系统熵（类似于前面第一步将play换为该属性计算的系统熵】这个比率，试图克服这种缺点。

g(D,A)代表D数据集A属性的信息增益，

3. 基尼指数（CART算法）

基尼指数：

表示在样本集合中一个随机选中的样本被分错的概率。越小表示集合中被选中的样本被分错的概率越小，也就是说集合的纯度越高。

假设集合中有K个类别，则：

说明:

1. pk表示选中的样本属于k类别的概率，则这个样本被分错的概率是(1-pk)

2. 样本集合中有K个类别，一个随机选中的样本可以属于这k个类别中的任意一个，因而对类别就加和