机器学习中的数据预处理有哪些常见重要的工具

Python018

机器学习中的数据预处理有哪些常见重要的工具,第1张

不太清楚你说的是搭建pipeline的工具还是说pipeline里面处理数据的工具,就顺道都说一下。

pipeline工具本身一般是控制这些工具的流程,最简单的crontab就定时执行就好,但是有时候会有数据依赖的问题,比如第7步依赖第三步的两个文件以及平行的第6步的文件,这个依赖并不是线性的,而是一个图的形式。当中加上有些技术延迟比如有些数据生成失败了需要重启某些特定的步骤重新生成,这个问题就稍微复杂了。crontab一般在这时候就搞不定,需要一些专门的pipeline管理,比如 spotify/luigi · GitHub 或者 Azkaban

2. 预处理文本数据本身一般用一些Linux的工具比如cut啊awk啊等等做数据筛选和清理,自己写一写python小工具做数据的简单组合比如复杂的regex规则组合,比较大的数据归类和抽象一般用Hive之类的hadoop工具都可以,里面也可以插入linux小工具和自己写的工具。

工业界的数据项目多数时间要设计如何清理数据,这和学术界的玩具数据玩起来很不一样,欢迎来到真实的世界。-ITjob

当然,Python是人工智能的首选语言。具体原因如下:

Python在设计上坚持了清晰的风格,让Python成为了一门简单、易读、易维护的语言,让大量用户所欢迎的、用途广泛的语言。机器学习应用程序是非常复杂的,多阶段的工作流程,而Python的语言设计在机器学习中很有帮助,就是可以提供高层的、基于对象的任务抽象。

其次,Python还提供了机器学习的代码库。Python提供大量的机器学习的代码库和框架,在数学运算方面有NumPy、SciPy,在可视化方面有MatplotLib、SeaBorn,结构化数据操作可以通过Pandas,针对各种垂直领域比如图像、语言、文本在预处理阶段都有成熟的库可以使用。

最后,Python功能强大。Python在机器学习领域之中可以说是大放异彩的。不仅仅只是说一个功能而已,而是Python整体的语言包,一种易学易用的语言,它的生态系统拥有第三方代码库可以覆盖广泛的机器学习用例和性能,可以帮助我们完成更好的工作。