轻松体验TensorFlow 第一个神经网络:基本分类(Part 1)

Python050

轻松体验TensorFlow 第一个神经网络:基本分类(Part 1),第1张

关于 Jupyter Notebook 的使用,可以参考如下链接,有详细的步骤和截图:

Jupyter Notebook神器-免费体验来自微软的Azure Notebook

基于Jupyter Notebook 快速体验Python和plot()绘图方法

基于Jupyter Notebook 快速体验matplotlib.pyplot模块中绘图方法

TensorFlow 基本分类(basic classification)演示的完整代码,可以访问:

上述命令运行时间较长,请耐心等待。

pip list 命令用来查看当前环境下的Python 包,grep 命令用来查找和筛选。中间的竖线表示 pipe(管道),将pip list 命令的输出作为 grep 命令的输入。

pip 前面的感叹号是cell 中运行 Linux 命令的方式,在命令行中运行则不需要加感叹号。

上述命令的输出,表示当前环境已经安装好了 TensorFlow 包。如果没有安装,可以通过如下命令安装:

安装TensorFlow命令,说明如下:

本地安装TensorFlow,截图如下。

TensorFlow 安装完成:

下面训练了一个神经网络模型,来对服装图像进行分类,例如运动鞋和衬衫。需要使用tf.keras,这是一个用于在TensorFlow 中构建和训练模型的高级API。

下面使用Fashion MNIST 数据集,其中包含了10个类别中共70,000张灰度图像。图像包含了低分辨率(28 x 28像素)的单个服装物品,图片链接如下所示:

Fashion-MNIST是一个替代MNIST手写数字集的图像数据集。 它是由Zalando(一家德国的 时尚 科技 公司)旗下的研究部门提供。其涵盖了来自10种类别的共7万个不同商品的正面图片。Fashion-MNIST的大小、格式和训练集/测试集划分与原始的MNIST完全一致。60000/10000的训练测试数据划分,28x28的灰度图片。可以直接用它来测试你的机器学习和深度学习算法性能,且不需要改动任何的代码。

MNIST是 Mixed National Institute of Standards and Technology database 的简写。

下面使用60,000张图像来训练网络和10,000张图像来评估网络模型学习图像分类任务的准确程度。

可以直接从TensorFlow 使用Fashion MNIST,只需导入并加载数据。

加载数据集并返回四个NumPy数组:

图像是28x28 NumPy数组,像素值介于0到255之间。labels是一个整数数组,数值介于0到9之间。

下面是图像类别和标签的对应关系:

每个图像都映射到一个标签。由于类别名称不包含在数据集中,因此把他们存储在这里以便在绘制图像时使用:

以下显示训练集中有60,000个图像,每个图像表示为28 x 28像素:

训练集中有 60000个标签,并且每个标签都是0-9 之间的整数。

测试集和训练集类似,有10000个图像和对应的10000个图像标签。

在训练网络之前必须对数据进行预处理。 如果检查训练集中的第一个图像,将看到像素值落在0到255的范围内:

代码说明:

plt.figure() 创建一个新的figure。

plt.colorbar() 方法用来显示当前image 的颜色方案。

在发送到神经网络模型之前,我们将这些值缩放到0到1的范围(归一化处理)。为此,我们将像素值值除以255。重要的是,对训练集和测试集要以相同的方式进行预处理:

显示训练集中的前25个图像,并在每个图像下方显示类别名。验证数据格式是否正确,我们是否已准备好构建和训练网络。

代码说明:

plt.xticks([])和plt.yticks([]) - 以空list 作为xticks() 方法的参数,查看数据集中图像隐藏坐标轴。

plt.xlabel() 方法可以在 x 轴的下方显示指定文本。

plt.subplot(5,5,1) 方法 - 表示5行5列共25个位置,最后一个参数1 表示Axes的位置,第一行的位置编号为:1-5,第二行的位置编号为:6-10,依此类推。

上述代码遍历了25 个位置(for i in range(25)),批量显示多张图。针对每一个位置,设置隐藏x和y轴,不显示网关线(grid),在对应的位置显示图像以及类别(label)。

需要注意的地方:Axes 位置的起始值是1,不是常见的0。

对TensorFlow 深度学习有兴趣的同学,可以访问如下链接。

参考链接:https://www.jianshu.com/p/b2f70f867a4a

箱线图,又称箱形图(boxplot)或盒式图,不同于一般的折线图、柱状图或饼图等传统图表,只是数据大小、占比、趋势等等的呈现,其包含一些统计学的均值、分位数、极值等等统计量,因此,该图信息量较大,不仅能够分析不同类别数据平均水平差异(需在箱线图中加入均值点),还能揭示数据间离散程度、异常值、分布差异等等。

在python中常用matplotlib的boxplot来绘制,最简单绘制的如下:

importnumpyasnpimportmatplotlib.pyplotaspltimportpandasaspdnp.random.seed(2)#设置随机种子df = pd.DataFrame(np.random.rand(5,4),columns=['A','B','C','D'])#先生成0-1之间的5*4维度数据,再装入4列DataFrame中df.boxplot()#也可用plot.box()plt.show()

Paste_Image.png

从图形可以看出,A、B、C、D四组数A、D数据较集中(大部分在上下四分位箱体内),但都有异常值,C的离散程度最大(最大值与最小值之间距离),以均值为中心,B分布都有明显右偏(即较多的值分布在均值的右侧),A、C则有明显左偏。

(2)

从分析的角度来说,上面boxplot最初始图形已经够用,但是在matplotlib库下boxplot函数中包含n多参数,涉及到对框的颜色及形状、线段线型、均值线、异常点的形状大小等等设置,由于大多并不常用,用了几个常用参数,作图如下:

df.boxplot(sym='r*',vert=False,patch_artist=True,meanline=False,showmeans=True)plt.show()

Paste_Image.png

其中,sym='r*',表示异常点的形状,

vert=False,表示横向还是竖向(True),,

patch_artist=True,(上下四分位框内是否填充,True为填充)

meanline=False,showmeans=True,是否有均值线及其形状,meanline=True时,均值线也像中位数线一样是条红色线段,这样容易与中位数线混淆。

另外,还有其他参数,比如notch表示中间箱体是否缺口,whis为设置数据的范围,showcaps、showbox是否显示边框,可以参见

http://matplotlib.org/api/pyplot_api.html#matplotlib.pyplot.boxplot ,如该网页中图形:

Paste_Image.png

左上图是默认图形,中上、右上是显示均值点及形状,左下是是否显示箱体边框,中下是带缺口的箱体,右下是是否显示异常值。

(3)

前边说过,很多参数使用很少,但对于图形来说,可能还能用到的就是美化,比如各条线的颜色,粗细程度等等。这里可用for循环来构造。

f=df.boxplot(sym='r*',patch_artist=True)forboxinf['boxes']:# 箱体边框颜色box.set( color='#7570b3', linewidth=2)# 箱体内部填充颜色box.set( facecolor ='#1b9e77')forwhiskerinf['whiskers']:    whisker.set(color='r', linewidth=2)forcapinf['caps']:    cap.set(color='g', linewidth=3)formedianinf['medians']:    median.set(color='DarkBlue', linewidth=3)forflierinf['fliers']:    flier.set(marker='o', color='y', alpha=0.5)plt.show()

Paste_Image.png

其中,boxes, 是25分位值和75分位值构成的box,

medians, 是中位值的横线, 每个median是一个Line2D对象

whiskers, 是指从box 到error bar之间的竖线.

fliers, 是指error bar线之外的离散点.

caps, 是指error bar横线.

means, 是均值的横线,

(4)

还可以做子图,如我们在最开始的DataFrame数据中加入分类数据列:

df['E'] = np.random.choice(['X','Y'], size=20)#加入以X、Y随机分类的E列print(df)plt.figure()df.boxplot(by='E')plt.show()

Paste_Image.png

这样我们就可以比较,不同类别X、Y在同一列下的数据分布情况及其差异。

链接:https://www.jianshu.com/p/b2f70f867a4a

来源: