python数据分析需要哪些库?

Python020

python数据分析需要哪些库?,第1张

1.Numpy库

是Python开源的数值计算扩展工具,提供了Python对多维数组的支持,能够支持高级的维度数组与矩阵运算。此外,针对数组运算也提供了大量的数学函数库,Numpy是大部分Python科学计算的基础,具有很多功能。

2.Pandas库

是一个基于Numpy的数据分析包,为了解决数据分析任务而创建的。Pandas中纳入了大量库和标准的数据模型,提供了高效地操作大型数据集所需要的函数和方法,使用户能快速便捷地处理数据。

3.Matplotlib库

是一个用在Python中绘制数组的2D图形库,虽然它起源于模仿MATLAB图形命令,但它独立于MATLAB,可以通过Pythonic和面向对象的方式使用,是Python中Z出色的绘图库。主要用纯Python语言编写的,它大量使用Numpy和其他扩展代码,即使对大型数组也能提供良好的性能。

4.Seaborn库

是Python中基于Matplotlib的数据可视化工具,提供了很多高层封装的函数,帮助数据分析人员快速绘制美观的数据图形,从而避免了许多额外的参数配置问题。

5.NLTK库

被称为使用Python进行教学和计算语言学工作的Z佳工具,以及用自然语言进行游戏的神奇图书馆。NLTK是一个领先的平台,用于构建使用人类语言数据的Python程序,它为超过50个语料库和词汇资源提供了易于使用的接口,还提供了一套文本处理库,用于分类、标记化、词干化、解析和语义推理、NLP库的包装器和一个活跃的讨论社区。

总结一下自己学习,接触了Numpy,Pandas,Matplotlib,Scipy,Scikit-learn,也算是入门,给出自己的轨迹(略去安装),并总结一下其他人的答案,最后有彩蛋。

Numpy:

来存储和处理大型矩阵,比Python自身的嵌套列表(nested list structure)结构要高效的多,本身是由C语言开发。这个是很基础的扩展,其余的扩展都是以此为基础。数据结构为ndarray,一般有三种方式来创建。

Python对象的转换

通过类似工厂函数numpy内置函数生成:np.arange,np.linspace.....

从硬盘读取,loadtxt

快速入门:Quickstart tutorial

Pandas:

基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。最具有统计意味的工具包,某些方面优于R软件。数据结构有一维的Series,二维的DataFrame(类似于Excel或者SQL中的表,如果深入学习,会发现Pandas和SQL相似的地方很多,例如merge函数),三维的Panel(Pan(el) + da(ta) + s,知道名字的由来了吧)。学习Pandas你要掌握的是:

汇总和计算描述统计,处理缺失数据 ,层次化索引

清理、转换、合并、重塑、GroupBy技术

日期和时间数据类型及工具(日期处理方便地飞起)

快速入门:10 Minutes to pandas

Matplotlib:

Python中最著名的绘图系统,很多其他的绘图例如seaborn(针对pandas绘图而来)也是由其封装而成。创世人John Hunter于2012年离世。这个绘图系统操作起来很复杂,和R的ggplot,lattice绘图相比显得望而却步,这也是为什么我个人不丢弃R的原因,虽然调用

plt.style.use("ggplot")

绘制的图形可以大致按照ggplot的颜色显示,但是还是感觉很鸡肋。但是matplotlib的复杂给其带来了很强的定制性。其具有面向对象的方式及Pyplot的经典高层封装。

需要掌握的是:

散点图,折线图,条形图,直方图,饼状图,箱形图的绘制。

绘图的三大系统:pyplot,pylab(不推荐),面向对象

坐标轴的调整,添加文字注释,区域填充,及特殊图形patches的使用

金融的同学注意的是:可以直接调用Yahoo财经数据绘图(真。。。)

Pyplot快速入门:Pyplot tutorial

Scipy:

方便、易于使用、专为科学和工程设计的Python工具包.它包括统计,优化,整合,线性代数模块,傅里叶变换,信号和图像处理,常微分方程求解器等等。

基本可以代替Matlab,但是使用的话和数据处理的关系不大,数学系,或者工程系相对用的多一些。(略)

近期发现有个statsmodel可以补充scipy.stats,时间序列支持完美

Scikit-learn:

关注机器学习的同学可以关注一下,很火的开源机器学习工具,这个方面很多例如去年年末Google开源的TensorFlow,或者Theano,caffe(贾扬清),Keras等等,这是另外方面的问题。

主页:An introduction to machine learning with scikit-learn

图书:

Pandas的创始者:利用Python进行数据分析 (豆瓣)(力荐)

教材的集合:Scipy Lecture Notes(写的非常棒!遗憾缺少Pandas)

提升自己:机器学习实战 (豆瓣)