Python 数据模型

2023-02-20 12:50:01Python011

Python 数据模型,第1张

Python 风格的关键完全体现在 Python 的数据模型上，数据模型所描述的 API ，为使用最地道的语言特性来构建开发者自己的对象提供了工具。

当 Python 解析器遇到特殊句法时，会使用特殊方法去激活一些基本的对象操作。特殊方法以双下划线开头，以双下划线结尾。如： obj[key] 的背后就是 __getitem__ 方法。魔术方法是特殊方法的昵称，特殊方法也叫双下方法。

使用 __getitem__ 和 __len__ 创建一摞有序的纸牌：

上面的例子，使用 collections.namedtuple 构建了一个简单的类来表示一张纸牌， namedtuple 用以构建只有少数属性但没有方法的类。

我们自定义的 FrenchDeck 类可以像任何 python 标准集合类型一样使用 len() 函数，查看一叠牌有多少张：

也可以像列表一样，使用位置索引， d[i] 将调用 __getitem__ 方法：

也可以使用标准库模块提供的 random.choice 方法，从序列中随机选取一个元素。下面，我们如随机取出一张纸牌：

现在我们已经体会到通过 python 特殊方法，来使用 Python 数据模型的 2 个好处：

因为 __getitem__ 方法把 [] 操作交给了 self.cards 列表，所以我们的 FrenchDeck 实例自动支持切片：

仅仅实现了 __getitem__ 方法，这一摞牌即变得可迭代：

运行结果：

也可以直接调用内置的 reversed 函数，反向迭代 FrenchDeck 实例：

运行结果：

迭代通常是隐式的，比如一个集合类型没有实现 __contains__ 方法，那么 in 运算符就会按顺序做一次迭代搜索。

因此， in 运算符可以用在我们的 FrenchDeck 实例上，因为它是可迭代的：

FrenchDeck 还可以使用 Python 标准库中的 sorted 函数，实现排序：

首先定义一个排序依据的函数：

优先按 rank 的大小排序，rank 相同时则比较 suit 的值：

运行结果：

优先按 suit 的大小排序，suit 相同时则比较 rank 的值：

运行结果：

按照目前的设计，FrenchDeck 还不支持洗牌，因为它是不可变的：

shuffle 函数要调换集合中元素的位置，而 FrenchDeck 只实现了不可变的序列协议，可变的序列还必须提供 __setitem__ 方法：

洗牌：

没有任何的返回值，可见 random.shuffle 就地修改了可变序列 d 。为便于观察结果，我们定义输入的输出函数：

运行结果：

每次洗牌，都是一个随机的序列：

首先明确一点，特殊方法的存在是为了被 Python 解析器调用的，例如：我们不会使用 obj.__len__() 这种写法，而是 len(obj) 。在执行 len(obj) 时，如果 obj 是一个自定义类的对象，那么 Python 会自己去调用我们实现的 __len__ 方法。

对于 Python 内置的数据类型，比如列表、字符串、字节序列等，那么 CPython 会抄个近路， __len__ 实际上会返回 PyVarObject 里的 ob_size 属性，这是因为直接读取属性比调用一个方法要快得多。

很多时候，特殊方法的调用是隐式的，比如 for i in x: 这个语句其实是调用 iter(x) ，而这个函数的背后是 x.__iter__() 方法。

通过内置函数如来使用特殊方法是最好的选择。这些内置函数不仅会调用这些方法，通常还提供额外的好处，对于内置类型来说，它们的速度更快。

下面，我们通过定义一个简单的二维向量类，再来体会一下 Python 特殊方法的美妙：

使用 Vector 类，就像使用 Python 内置的数据类型一样简单：

方法一：找到Python脚本所在的文件，使用快捷键shift+右击的方式运行

当我们在网页中下载好Python之后，默认安装的时候会安装一个Python脚本文件，使用这个方法之前就是要先找到Python脚本所在我文件夹中，找到之后，选择文件点击shift并且右击鼠标，在弹出的选项中，选择“在此处打开命令窗口”，如何再使用快捷键tab键切换文件，选择我们要使用的目标python脚本，然后就可以直接运行了，或者直接对当前的脚本文件双击运行。

方法二：命令行窗口运行

首先是要在命令行窗口中操作的，所以我们要先进入到命令行窗口中去，相信大家应该对进入命令行窗口的方式都掌握了，第一步要做的事情就是去打开一个运行窗口，可以使用快捷键的方式winr+r回车之后,此时会弹出运行窗口，我们在窗口中可以直接输入cmd按下回车之后，就可以直接进入到命令行窗口中，使用刚才什么的第一种方式，去文件夹中找到脚本文件所在的目录之后，直接将脚本文件选择拖入到命令行中，按下回车，即可运行Python程序。

python绘制预测模型校准图可以使用校准曲线，因为预测一个模型校准的最简单的方法是通过一个称为“校准曲线”的图（也称为“可靠性图”，reliability diagram）。

这个方法主要是将观察到的结果通过概率划分为几类（bin）。因此，属于同一类的观测值具有相近的概率。

对于每个类，校准曲线将预测这个类的平均值，然后将预测概率的平均值与理论平均值（即观察到的目标变量的平均值）进行比较。

你只需要确定类的数量和以下两者之间的分类策略即可：

1、“uniform”，一个0-1的间隔被分为n_bins个类，它们都具有相同的宽度。

2、“quantile”，类的边缘被定义，从而使得每个类都具有相同数量的观测值。

假设你的模型具有良好的精度，则校准曲线将单调增加。但这并不意味着模型已被正确校准。实际上，只有在校准曲线非常接近等分线时（即下图中的灰色虚线），您的模型才能得到很好的校准，因为这将意味着预测概率基本上接近理论概率。

python绘制预测模型中如何解决校准错误：

假设你已经训练了一个分类器，该分类器会产生准确但未经校准的概率。概率校准的思想是建立第二个模型（称为校准器），校准器模型能够将你训练的分类器“校准”为实际概率。

因此，校准包括了将一个一维矢量（未校准概率）转换为另一个一维矢量（已校准概率）的功能。

两种常被用作校准器的方法：

1、保序回归：一种非参数算法，这种非参数算法将非递减的自由格式行拟合到数据中。行不会减少这一事实是很重要的，因为它遵从原始排序。