Python处理大数据的技巧, 2022-06-21

2023-02-18 01:02:01Python015

Python处理大数据的技巧, 2022-06-21,第1张

(2022.06.21 Tues)

收集整理了Python处理大量数据的方法，基于Pandas，Numpy等数据处理工具。

用df的 info 方法并指定 memory_usage='deep' 参数，或使用df的 memory_usage 方法，并指定 deep=True 参数。

在读取数据文件的方法中加入 nrows 参数选择前n行数据读取。

也可以跳过m行之后，读取从m行开始的n行

当然也可以在 skiprows 选项中指定范围，保留headers，即保留列名

可以指定 skiprows 中需要忽略的行，用list或array导入即可。下面是随机

如果在这个指令中忽略 nrows=10 指令，则读取跳过100行之后的所有数据。

预先指定读入的列，缩小加载范围

不同的数据类型占用了不同大小的空间，对于尚未读取的数据，可以提前指定类型( dtype )；对于已经读入的数据，通过 astype 方法修改成占空间更小的数据类型。

在读入数据之前，通过字典指定每列对应的数据类型，读入之后按照此类型显示数据。

通过改变数据类型减少空间的案例。修改DataFrame d 中的一列 Sctcd ，注意到该列的数据都是1、2、0，而保存类型是object，果断改成 uint8 ，通过 df.info(memory_usage='deep') 方法对比内存的使用情况。仅仅修改了一个列的类型，数据大小减小3MB。

一个特殊而高效的案例是当某一列的值只有有限个，不管是int还是string格式，且该列unque值远小于列的长度，可以将该列转变为 category 类，将节省大量空间。这么做当然也有代价，比如转换成 category 类的数据将无法做max/min等运算，由数字转换成的 category 也不能进行数值运算。这种转换对内存的节省效果显著，下面是对比。 dcol 只有两列， Stkcd 和 Stknme ，查看unique的个数与总长度，显示unique远小于总长度，分别转换为 category 类型，内存节省超过90%！

通过Pandas的 read_csv 方法中的 chunksize 选项指定读取的块大小，并迭代地对读取的块做运算。

1 https冒号//www点dataquest点io/blog/pandas-big-data/

2 CSDN - python 处理大量数据_如何用python处理大量数据

2 How to Work with BIG Datasets on 16G RAM (+Dask), on kaggle

Python是数据科学家十分喜爱的编程语言，其内置了很多由C语言编写的库，操作起来更加方便，Python在网络爬虫的传统应用领域，在大数据的抓取方面具有先天优势，目前，最流行的爬虫框架Scrapy，HTTP工具包urlib2，HTML解析工具beautifulsoup，XML解析器lxml，等等，都是能够独当一面的Python类库。

相关推荐：《Python基础教程》

Python十分适合数据抓取工作，对于大数据的处理，具有一定的局限性：

Python在大数据处理方面的优势：

1. 异常快捷的开发速度，代码量少；

2. 丰富的数据处理包，使用十分方便；

3. 内部类型使用成本低；

4. 百万级别数据可以采用Python处理。

Python在大数据处理方面的劣势：

1. python线程有gil，多线程的时候只能在一个核上跑，浪费了多核服务器；

2. python执行效率不高，在处理大数据的时候，效率不高；

3. 10亿级别以上的数据Python效率低。

Python适合大数据的抓取、载入和分发，相比于其他语言更加简单、高效；求一些常用的统计量和求一些基本算法的结果，Python也有现成的高效的库，但是针对大数据处理，Python具有一定的局限于，因此，涉及大数据处理时，可以用Python做整个流程的框架，核心CPU密集操作可以采用C语言等编程语言！

Python这只小虫子最近随着大数据的兴起可以说是十分的火了。有越来越多的人不敢小觑Python这门语言了。也有更多的人在学习Python。Python为何会有如此大的魅力？为什么从事大数据行业必学Python？这还要从Python这门语言的优点开始讲起。

虽然Python这种语言不如Java、C++这些语言普及，却早在1991年就已经诞生了。它的语法简单清晰，以实用为主，是门十分朴素的语言。同时，它还是编程语言中的“和事佬”，被人戏称为胶水语言。因为它能够将其他语言制作的各种模块很轻松的联结在一起。

如果将Python语言拟人化，它绝对属于“老好人”的那一类，让人容易亲近，人们与它交流并不需要花太多心思。但它却拥有强大的功能。很多语言不能完成的任务，Python都能轻易完成。它几乎可以被用来做任何事情，应用于多个系统和平台。无论是系统操作还是Web开发，抑或是服务器和管理工具、部署、科学建模等，它都能轻松掌握。因此，从事海量数据处理的大数据行业，自然少不了这个“万能工具”。

除此之外，Python这只小虫子还受到了大数据老大哥Google的青睐。Google的很多开发都用到了Python。这使得人们能够找到Python的很多指南和教程。让你学起来更方便，你在使用中可能遇到的很多问题大多数都已经被Google给解决了，并把解决方法发布到了网络平台。

Python还拥有一系列非常优秀的库，这省了你编程中的很多时间。尤其是在人工智能和机器学习领域，这些库的价值体现得更为明显。

不管怎么说，从事大数据工作，少不得要在网络上爬取数据，不用Python爬虫，你还打算用什么呢？

因此，在当前的大数据领域，从事大数据行业必学Python。

人工智能、大数据、云计算和物联网的未来发展值得重视，均为前沿产业，多智时代专注于人工智能和大数据的入门和科谱，在此为你推荐几篇优质好文：

————————————————

原文链接：https://blog.csdn.net/duozhishidai/article/details/88712833

数据语言数据处理方法类型

# 上一篇：R语言进行相关性分析

# 下一篇：C语言中如何调用子程序