60-R语言中的神经网络

2023-03-02 08:20:02Python017

60-R语言中的神经网络,第1张

《深度学习精要（基于R语言）》学习笔记

机器学习主要用于开发和使用那些从原始数据中学习、总结出来的用于进行预测的算法。

深度学习是一种强大的多层架构，可以用于模式识别、信号检测以及分类或预测等多个领域。

神经网络包括一系列的神经元，或者叫作节点，它们彼此连结并处理输入。神经元之间的连结经过加权处理，权重取决于从数据中学习、总结出的使用函数。一组神经元的激活和权重（从数据中自适应地学习）可以提供给其他的神经元，其中一些最终神经元的激活就是预测。

经常选择的激活函数是sigmoid函数以及双曲正切函数tanh，因为径向基函数是有效的函数逼近，所以有时也会用到它们。

权重是从每个隐藏单元到每个输出的路径，对第i个的输出通过(w_i)表示。如创建隐藏层的权重，这些权重也是从数据中学习得到的。分类会经常使用一种最终变换，softmax函数。线性回归经常使用恒等（identity）函数，它返回输入值。权重必须从数据中学习得到，权重为零或接近零基本上等同于放弃不必要的关系。

R中神经网络相关包：

一旦集群完成初始化，可以使用R或本地主机（127.0.0.1:54321）提供的Web接口与它连接。

如果数据集已经加载到R，使用as.h2o()函数：

如果数据没有载入R，可以直接导入到h2o中：

也可以直接导入网络上的文件：

导入基于图片识别手写体数字，数据集的每一列（即特征），表示图像的一个像素。每张图像都经过标准化处理，转化成同样的大小，所以所有图像的像素个数都相同。第一列包含真实的数据标签，其余各列是黑暗像素的值，它用于分类。

使用caret包训练模型：

生成数据的一组预测，查看柱状图：

跟训练集数据柱状图对比，很明显模型不是最优的。

通过混淆矩阵检查模型性能：

No Information Rate（无信息率）指不考虑任何信息而仅仅通过猜测来决定最频繁的类的准确度期望。在情形“1”中，它在11.16%的时间中发生。P值（P-Value [Acc >NIR]）检验了观测准确度（Accuracy : 0.3674）是否显著不同于无信息率（11.16%）。

Class: 0的灵敏度（Sensitivity）可以解释为：89.07%的数字0被正确地预测为0。特异度（Specificity）可以解释为：95.14%的预测为非数字0被预测为不是数字0。

检出率（Detection Rate）是真阳性的百分比，而最后的检出预防度（detection prevalence）是预测为阳性的实例比例，不管它们是否真的为阳性。

平衡准确度（balanced accuracy）是灵敏度和特异度的平均值。

接下来我们通过增加神经元的个数来提升模型的性能，其代价是模型的复杂性会显著增加：

隐藏神经元的数量从5个增加到10个，样本内性能的总准确度从36.74% 提升到了 65.4%。我们继续增加隐藏神经元的数量：

增加到40个神经元后准确度跟10个神经元的一样，还是65.4%。如果是商业问题，还需要继续调节神经元的数量和衰变率。但是作为学习，模型对数字9的表现比较差，对其他数字都还行。

RSNNS包提供了使用斯图加特神经网络仿真器（Stuttgart Neural Network Simulator ， SNNS）模型的接口，但是，对基本的、单隐藏层的、前馈的神经网络，我们可以使用mlp()这个更为方便的封装函数，它的名称表示多层感知器（multi-layer perceptron）。

RSNNS包要求输入为矩阵、响应变量为一个哑变量的矩阵，因此每个可能的类表示成矩阵列中的 0/1 编码。

通过decodeClassLabels()函数可以很方便的将数据转换为哑变量矩阵。

预测结果的值为1-10，但是实际值为0-9，所以在生成混淆矩阵时，需要先减去1：

RSNNS包的学习算法使用了相同数目的隐藏神经元，计算结果的性能却有极大提高。

函数I()有两个作用：

1.在对data.frame的调用中将对象包含在I()中来保护它，防止字符向量到factor的转换和名称的删除，并确保矩阵作为单列插入。

2.在formula函数中，它被用来禁止将“+”、“-”、“*”和“^”等运算符解释为公式运算符，因此它们被用作算术运算符。

从RSNNS包返回的预测值（pred.ml4）中可以看到，一个观测可能有40%的概率成为“5”，20%的概率成为“6”，等等。最简单的方法就是基于高预测概率来对观测进行分类。RSNNS包有一种称为赢者通吃（winner takes all，WTA）的方法，只要没有关系就选择概率最高的类，最高的概率高于用户定义的阈值（这个阈值可以是0），而其他类的预测概率都低于最大值减去另一个用户定义的阈值，否则观测的分类就不明了。如果这两个阈值都是0（缺省），那么最大值必然存在并且唯一。这种方法的优点是它提供了某种质量控制。

但是在实际应用中，比如一个医学背景下，我们收集了病人的多种生物指标和基因信息，用来分类确定他们是否健康，是否有患癌症的风险，是否有患心脏病的风险，即使有40%的患癌概率也需要病人进一步做检查，即便他健康的概率是60%。RSNNS包中还提供一种分类方法称为“402040”，如果一个值高于用户定义的阈值，而所有的其他值低于用户定义的另一个阈值。如果多个值都高于第一个阈值，或者任何值都不低于第二个阈值，我们就把观测定性为未知的。这样做的目的是再次给出了某种质量控制。

“0”分类表示未知的预测。

通常来说，过拟合指模型在训练集上的性能优于测试集。过拟合发生在模型正好拟合了训练数据的噪声部分的时候。因为考虑了噪声，它似乎更准确，但一个数据集和下一个数据集的噪声不同，这种准确度不能运用于除了训练数据之外的任何数据 — 它没有一般化。

使用RSNNS模型对样本外数据预测：

模型在第一个5000行上的准确度为85.1%，在第二个5000行上的准确度减少为80%，损失超过5%，换句话说，使用训练数据来评价模型性能导致了过度乐观的准确度估计，过度估计是5%。

这个问题我们后面再处理。

1.Linux与R的学习先后问题：

师姐说后面作生信分析要用Linux环境进行数据集群分析，所以目前首要任务是熟悉R语言和Python的操作，后面转到Linux环境运行操作大同小异。

2.R及Rstudio的安装问题：

装了Rstudio之后显示没有装R，解决方案是R和Rstudio安装时选择默认路径，是这两个软件装在同一个目录下。

3.输入demo()后显示

>demo()

Warning message:

In file.show(outFile, delete.file = TRUE, title = paste("R", tolower(x$title))) :

file.show():不存在'C:\Users\灏忔湪浜榎AppData\Local\Temp\RtmpENM66s\RpackageIQR28b82f592cbb'这个文件

（1）找出问题：R存在一个中文目录底下，会出现错误，所以首先第一步要将文件名（即user底下的名字）改为英文的（注：以后文件名尽量设置为英文的，才方便识别）

（2）解决问题：因为win为家庭版，所以没有在计算机管理中没有找到本地用户和组，借鉴了CSDN论坛中一位大神经验贴的后半部分【【设置】Win10如何更改C:\Users\下的用户名_胡振涛-CSDN博客_如何更改users下的用户名】，从win+R输入regedit(打开注册表）那块开始，后面将自己中文的文件名改成英文就好了，然后注销再打开，运行R后，输入demo()，显示界面如下图。

4.options()是个啥，没整明白？

options：指定系统参数

5. runif()函数

runif (random samples from uniform distribution) 均匀分布中的随机变量

例如：runif(242, min =-0.3,max=0.3) 从-0.3 到0.3 随机产生242个值

6.包及库

1——已经安装的包

2——用来放R安装时自带的包（如base，state等）

7.函数括号内加“”的规律：外部的东西要加引号。安装以后内部的东西不用加引号。

8.批处理命令打出来很奇怪？

9.返回值？——一个运算函数被赋予具体数据后得到值return到这个函数变量上（操作型函数没有返回值）

10.help(package="vcd"/"ggplot2")，命令后help界面无显示

未找到问题原因，解决方案为在CRAN上直接看好了。

11.安装ggplot2包后，输入library(ggplot2)，没有反应——说明你装上了。。(有些包library成功是没有输出的）

相反的是可以看到如果安装的是tidyverse，输入library(tidyverse)，是有输出的

12.Rstudio工作路径&库安装路径修改（我用#CSDN#这个app发现了有技术含量的博客，小伙伴们求同去《Rstudio更改工作路径&安装包路径》, 一起来围观吧 https://blog.csdn.net/princessyang/article/details/105731349?utm_source=app&app_version=4.7.1&code=app_1562916241&uLinkId=usr1mkqgl919blen）

工作路径修改

getwd（）——得到目前的工作路径

setwd（“目标工作路径”）

getwd（）——就可以看到路径更改了

库安装路径修改

打开

13.忘了在操作台输入啥可以显示那一长条的包了？

14.数据集和数据结构

1）数据集就是多个数据组成的集合

2）数据结构就是数据集的结构

15.rep函数

rep(1:4, each = 2)——1到4，每个element循环2次