轻松体验TensorFlow 第一个神经网络：基本分类（Part 1）

2023-05-01 12:45:01Python050

轻松体验TensorFlow 第一个神经网络：基本分类（Part 1）,第1张

关于 Jupyter Notebook 的使用，可以参考如下链接，有详细的步骤和截图：

Jupyter Notebook神器-免费体验来自微软的Azure Notebook

基于Jupyter Notebook 快速体验Python和plot()绘图方法

基于Jupyter Notebook 快速体验matplotlib.pyplot模块中绘图方法

TensorFlow 基本分类（basic classification）演示的完整代码，可以访问：

上述命令运行时间较长，请耐心等待。

pip list 命令用来查看当前环境下的Python 包，grep 命令用来查找和筛选。中间的竖线表示 pipe（管道），将pip list 命令的输出作为 grep 命令的输入。

pip 前面的感叹号是cell 中运行 Linux 命令的方式，在命令行中运行则不需要加感叹号。

上述命令的输出，表示当前环境已经安装好了 TensorFlow 包。如果没有安装，可以通过如下命令安装：

安装TensorFlow命令，说明如下：

本地安装TensorFlow，截图如下。

TensorFlow 安装完成：

下面训练了一个神经网络模型，来对服装图像进行分类，例如运动鞋和衬衫。需要使用tf.keras，这是一个用于在TensorFlow 中构建和训练模型的高级API。

下面使用Fashion MNIST 数据集，其中包含了10个类别中共70,000张灰度图像。图像包含了低分辨率（28 x 28像素）的单个服装物品，图片链接如下所示:

Fashion-MNIST是一个替代MNIST手写数字集的图像数据集。它是由Zalando（一家德国的时尚科技公司）旗下的研究部门提供。其涵盖了来自10种类别的共7万个不同商品的正面图片。Fashion-MNIST的大小、格式和训练集/测试集划分与原始的MNIST完全一致。60000/10000的训练测试数据划分，28x28的灰度图片。可以直接用它来测试你的机器学习和深度学习算法性能，且不需要改动任何的代码。

MNIST是 Mixed National Institute of Standards and Technology database 的简写。

下面使用60,000张图像来训练网络和10,000张图像来评估网络模型学习图像分类任务的准确程度。

可以直接从TensorFlow 使用Fashion MNIST，只需导入并加载数据。

加载数据集并返回四个NumPy数组:

图像是28x28 NumPy数组，像素值介于0到255之间。labels是一个整数数组，数值介于0到9之间。

下面是图像类别和标签的对应关系：

每个图像都映射到一个标签。由于类别名称不包含在数据集中，因此把他们存储在这里以便在绘制图像时使用:

以下显示训练集中有60,000个图像，每个图像表示为28 x 28像素：

训练集中有 60000个标签，并且每个标签都是0-9 之间的整数。

测试集和训练集类似，有10000个图像和对应的10000个图像标签。

在训练网络之前必须对数据进行预处理。如果检查训练集中的第一个图像，将看到像素值落在0到255的范围内：

代码说明：

plt.figure() 创建一个新的figure。

plt.colorbar() 方法用来显示当前image 的颜色方案。

在发送到神经网络模型之前，我们将这些值缩放到0到1的范围（归一化处理）。为此，我们将像素值值除以255。重要的是，对训练集和测试集要以相同的方式进行预处理:

显示训练集中的前25个图像，并在每个图像下方显示类别名。验证数据格式是否正确，我们是否已准备好构建和训练网络。

代码说明：

plt.xticks([])和plt.yticks([]) - 以空list 作为xticks() 方法的参数，查看数据集中图像隐藏坐标轴。

plt.xlabel() 方法可以在 x 轴的下方显示指定文本。

plt.subplot(5,5,1) 方法 - 表示5行5列共25个位置，最后一个参数1 表示Axes的位置，第一行的位置编号为：1-5，第二行的位置编号为：6-10，依此类推。

上述代码遍历了25 个位置（for i in range(25)），批量显示多张图。针对每一个位置，设置隐藏x和y轴，不显示网关线（grid），在对应的位置显示图像以及类别（label）。

需要注意的地方：Axes 位置的起始值是1，不是常见的0。

对TensorFlow 深度学习有兴趣的同学，可以访问如下链接。

参考链接：https://www.jianshu.com/p/b2f70f867a4a

箱线图，又称箱形图（boxplot）或盒式图，不同于一般的折线图、柱状图或饼图等传统图表，只是数据大小、占比、趋势等等的呈现，其包含一些统计学的均值、分位数、极值等等统计量，因此，该图信息量较大，不仅能够分析不同类别数据平均水平差异（需在箱线图中加入均值点），还能揭示数据间离散程度、异常值、分布差异等等。

在python中常用matplotlib的boxplot来绘制，最简单绘制的如下：

importnumpyasnpimportmatplotlib.pyplotaspltimportpandasaspdnp.random.seed(2)#设置随机种子df = pd.DataFrame(np.random.rand(5,4),columns=['A','B','C','D'])#先生成0-1之间的5*4维度数据，再装入4列DataFrame中df.boxplot()#也可用plot.box()plt.show()

Paste_Image.png

从图形可以看出，A、B、C、D四组数A、D数据较集中（大部分在上下四分位箱体内），但都有异常值，C的离散程度最大（最大值与最小值之间距离），以均值为中心，B分布都有明显右偏（即较多的值分布在均值的右侧），A、C则有明显左偏。

（2）

从分析的角度来说，上面boxplot最初始图形已经够用，但是在matplotlib库下boxplot函数中包含n多参数，涉及到对框的颜色及形状、线段线型、均值线、异常点的形状大小等等设置，由于大多并不常用，用了几个常用参数，作图如下：

df.boxplot(sym='r*',vert=False,patch_artist=True,meanline=False,showmeans=True)plt.show()

Paste_Image.png

其中，sym='r*',表示异常点的形状，

vert=False，表示横向还是竖向（True），,

patch_artist=True,（上下四分位框内是否填充，True为填充）

meanline=False,showmeans=True，是否有均值线及其形状，meanline=True时，均值线也像中位数线一样是条红色线段，这样容易与中位数线混淆。

另外，还有其他参数，比如notch表示中间箱体是否缺口，whis为设置数据的范围，showcaps、showbox是否显示边框，可以参见

http://matplotlib.org/api/pyplot_api.html#matplotlib.pyplot.boxplot ，如该网页中图形：

Paste_Image.png

左上图是默认图形，中上、右上是显示均值点及形状，左下是是否显示箱体边框，中下是带缺口的箱体，右下是是否显示异常值。

（3）

前边说过，很多参数使用很少，但对于图形来说，可能还能用到的就是美化，比如各条线的颜色，粗细程度等等。这里可用for循环来构造。

f=df.boxplot(sym='r*',patch_artist=True)forboxinf['boxes']:# 箱体边框颜色box.set( color='#7570b3', linewidth=2)# 箱体内部填充颜色box.set( facecolor ='#1b9e77')forwhiskerinf['whiskers']: whisker.set(color='r', linewidth=2)forcapinf['caps']: cap.set(color='g', linewidth=3)formedianinf['medians']: median.set(color='DarkBlue', linewidth=3)forflierinf['fliers']: flier.set(marker='o', color='y', alpha=0.5)plt.show()

Paste_Image.png

其中，boxes, 是25分位值和75分位值构成的box,

medians, 是中位值的横线, 每个median是一个Line2D对象

whiskers, 是指从box 到error bar之间的竖线.

fliers, 是指error bar线之外的离散点.

caps, 是指error bar横线.

means, 是均值的横线,

（4）

还可以做子图，如我们在最开始的DataFrame数据中加入分类数据列：

df['E'] = np.random.choice(['X','Y'], size=20)#加入以X、Y随机分类的E列print(df)plt.figure()df.boxplot(by='E')plt.show()

Paste_Image.png

这样我们就可以比较，不同类别X、Y在同一列下的数据分布情况及其差异。