教你如何用python6个步骤搞定金融数据挖掘预处理

Python014

教你如何用python6个步骤搞定金融数据挖掘预处理,第1张

数据预处理没有标准的流程,通常针对不同的任务和数据集属性的不同而不同。下面就一起看下常用六大步完成数据预处理。

Step 1:导入相关模块

Step 2:获取数据

特征构造

Step 3:处理缺失值

Step 4:分类数据编码

创建虚拟变量

Step 5:划分训练集和测试集

Step 6:特征标准化

数据变换十大秘诀

数据变换[1]是将数据集的每个元素乘以常数;也就是说,将每个数变换为,其中,和都是实数。数据变换将可能改变数据的分布以及数据点的位置。

数据标准化[2](有时称为 z-score 或 standar score)是已重新缩放为平均值为零且标准偏差为1的变量。对于标准化变量,每种情况下的值在标准化变量上的值都表明它与原始变量的均值(或原始变量的标准偏差)的差值。

归一化数据 是将数据缩放到0到1范围内。

Binarizing Data

二值化[3]是将任何实体的数据特征转换为二值化的向量以使分类器算法更高效的过程。在一个简单的示例中,将图像的灰度从0-255光谱转换为0-

1 光谱就是二值化。

Mean Removal

去均值法 是将均值从每一列或特征中移除,使其以零为中心的过程。

One Hot Encoding

独热编码[4]是将分类变量转换为可以提供给ML算法以更好地进行预测的形式的过程。

Label Encoding

标签编码 适用于具有分类变量并将数据转换为数字的数据。

fit

transform

词向量 用于带有标签和数字的数据。此外,词向量可用于提取数据。

获取特征名称

Polynomial Features

多项式特征 用于生成多项式特征和交互特征。它还生成了一个新的特征矩阵数据,该数据是由所有次数小于或等于指定次数的特征的多项式组合组成的。

截距项

填补 (如用均值填补缺失值),它用列或特性数据中的平均值替换缺失的值

Python 是世界上最受欢迎的编程语言之一,它受到了全世界各地的开发者和创客的欢迎。大多数 Linux 和 MacOS 计算机都预装了某个版本的 Python,现在甚至一些 Windows 计算机供应商也开始安装 Python 了。

也许你尚未学会它,想学习但又不知道在哪里入门。这里的 12 个资源将帮助你入门并熟练掌握 Python。

课程、书籍、文章和文档

1、Python 软件基金会提供了出色的信息和文档,可帮助你迈上编码之旅。请务必查看 Python 入门指南。它将帮助你得到最新版本的 Python,并提供有关编辑器和开发环境的有用提示。该组织还有可以来进一步指导你的优秀文档。

2、我的 Python 旅程始于海龟模块。我首先在 Bryson Payne 的《教你的孩子编码》中找到了关于 Python 和海龟的内容。这本书是一个很好的资源,购买这本书可以让你看到几十个示例程序,这将激发你的编程好奇心。Payne 博士还在 Udemy 上以相同的名称开设了一门便宜的课程。

3、Payne 博士的书激起了我的好奇心,我渴望了解更多。这时我发现了 Al Sweigart 的《用 Python 自动化无聊的东西》。你可以购买这本书,也可以使用它的在线版本,它与印刷版完全相同且可根据知识共享许可免费获得和分享。Al 的这本书让我学习到了 Python 的基础知识、函数、列表、字典和如何操作字符串等等。这是一本很棒的书,我已经购买了许多本捐赠给了当地图书馆。Al 还提供 Udemy 课程;使用他的网站上的优惠券代码,只需 10 美元即可参加。

4、Eric Matthes 撰写了《Python 速成》,这是由 No Starch Press 出版的 Python 的逐步介绍(如同上面的两本书)。Matthes 还有一个很棒的伴侣网站,其中包括了如何在你的计算机上设置 Python 以及一个用以简化学习曲线的速查表。

5、Python for Everybody 是另一个很棒的 Python 学习资源。该网站可以免费访问 Charles Severance 的 Coursera 和 edX 认证课程的资料。该网站分为入门、课程和素材等部分,其中 17 个课程按从安装到数据可视化的主题进行分类组织。Severance(@drchuck on Twitter),是密歇根大学信息学院的临床教授。

6、Seth Kenlon,我们 Opensource.com 的 Python 大师,撰写了大量关于 Python 的文章。Seth 有很多很棒的文章,包括“用 JSON 保存和加载 Python 数据”,“用 Python 学习面向对象编程”,“在 Python 游戏中用 Pygame 放置平台”,等等。

在设备上使用 Python

7、最近我对 Circuit Playground Express 非常感兴趣,这是一个运行 CircuitPython 的设备,CircuitPython 是为微控制器设计的 Python 编程语言的子集。我发现 Circuit Playground Express 和 CircuitPython 是向学生介绍 Python(以及一般编程)的好方法。它的制造商 Adafruit 有一个很好的系列教程,可以让你快速掌握 CircuitPython。

8、BBC:Microbit 是另一种入门 Python 的好方法。你可以学习如何使用 MicroPython 对其进行编程,这是另一种用于编程微控制器的 Python 实现。

9、学习 Python 的文章如果没有提到树莓派单板计算机那是不完整的。一旦你有了舒适而强大的树莓派,你就可以在 Opensource.com 上找到成吨的使用它的灵感,包括“7 个值得探索的树莓派项目”,“在树莓派上复活 Amiga”,和“如何使用树莓派作为 VPN 服务器”。

10、许多学校为学生提供了 iOS 设备以支持他们的教育。在尝试帮助这些学校的老师和学生学习用 Python 编写代码时,我发现了 Trinket.io。Trinket 允许你在浏览器中编写和执行 Python 3 代码。 Trinket 的 Python 入门教程将向你展示如何在 iOS 设备上使用 Python。

播客

11、我喜欢在开车的时候听播客,我在 Kelly Paredes 和 Sean Tibor 的 Teaching Python 播客上找到了大量的信息。他们的内容很适合教育领域。

12、如果你正在寻找一些更通用的东西,我推荐 Michael Kennedy 的 Talk Python to Me 播客。它提供了有关 Python 及相关技术的最佳信息。

你学习 Python 最喜欢的资源是什么?请在评论中分享。

计算机编程可能是一个有趣的爱好,正如我以前在 Apple II 计算机上编程时所学到的……