python数据分析用什么软件

2023-02-28 02:46:03Python08

python数据分析用什么软件,第1张

Python是数据处理常用工具，可以处理数量级从几K至几T不等的数据，具有较高的开发效率和可维护性，还具有较强的通用性和跨平台性，这里就为大家分享几个不错的数据分析工具。Python数据分析需要安装的第三方扩展库有：Numpy、Pandas、SciPy、Matplotpb、Scikit-Learn、Keras、Gensim、Scrapy等，以下是第三方扩展库的简要介绍：（推荐学习：Python视频教程）

1. Pandas

Pandas是Python强大、灵活的数据分析和探索工具，包含Series、DataFrame等高级数据结构和工具，安装Pandas可使Python中处理数据非常快速和简单。

Pandas是Python的一个数据分析包，Pandas最初被用作金融数据分析工具而开发出来，因此Pandas为时间序列分析提供了很好的支持。

Pandas是为了解决数据分析任务而创建的，Pandas纳入了大量的库和一些标准的数据模型，提供了高效的操作大型数据集所需要的工具。Pandas提供了大量是我们快速便捷的处理数据的函数和方法。Pandas包含了高级数据结构，以及让数据分析变得快速、简单的工具。它建立在Numpy之上，使得Numpy应用变得简单。

带有坐标轴的数据结构，支持自动或明确的数据对齐。这能防止由于数据结构没有对齐，以及处理不同来源、采用不同索引的数据而产生的常见错误。

使用Pandas更容易处理丢失数据。合并流行数据库（如：基于SQL的数据库）Pandas是进行数据清晰/整理的最好工具。

2. Numpy

Python没有提供数组功能，Numpy可以提供数组支持以及相应的高效处理函数，是Python数据分析的基础，也是SciPy、Pandas等数据处理和科学计算库最基本的函数功能库，且其数据类型对Python数据分析十分有用。

Numpy提供了两种基本的对象：ndarray和ufunc。ndarray是存储单一数据类型的多维数组，而ufunc是能够对数组进行处理的函数。Numpy的功能：

N维数组，一种快速、高效使用内存的多维数组，他提供矢量化数学运算。可以不需要使用循环，就能对整个数组内的数据进行标准数学运算。非常便于传送数据到用低级语言编写(CC++)的外部库,也便于外部库以Numpy数组形式返回数据。

Numpy不提供高级数据分析功能，但可以更加深刻的理解Numpy数组和面向数组的计算。

3. Matplotpb

Matplotpb是强大的数据可视化工具和作图库，是主要用于绘制数据图表的Python库，提供了绘制各类可视化图形的命令字库、简单的接口，可以方便用户轻松掌握图形的格式，绘制各类可视化图形。

Matplotpb是Python的一个可视化模块，他能方便的只做线条图、饼图、柱状图以及其他专业图形。使用Matplotpb，可以定制所做图表的任一方面。他支持所有操作系统下不同的GUI后端，并且可以将图形输出为常见的矢量图和图形测试，如PDF SVG JPG PNG BMP GIF.通过数据绘图，我们可以将枯燥的数字转化成人们容易接收的图表。 Matplotpb是基于Numpy的一套Python包，这个包提供了吩咐的数据绘图工具，主要用于绘制一些统计图形。 Matplotpb有一套允许定制各种属性的默认设置，可以控制Matplotpb中的每一个默认属性：图像大小、每英寸点数、线宽、色彩和样式、子图、坐标轴、网个属性、文字和文字属性。

4. SciPy

SciPy是一组专门解决科学计算中各种标准问题域的包的集合，包含的功能有最优化、线性代数、积分、插值、拟合、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其他科学与工程中常用的计算等，这些对数据分析和挖掘十分有用。

Scipy是一款方便、易于使用、专门为科学和工程设计的Python包，它包括统计、优化、整合、线性代数模块、傅里叶变换、信号和图像处理、常微分方程求解器等。Scipy依赖于Numpy，并提供许多对用户友好的和有效的数值例程，如数值积分和优化。

Python有着像Matlab一样强大的数值计算工具包Numpy；有着绘图工具包Matplotpb有着科学计算工具包Scipy。 Python能直接处理数据，而Pandas几乎可以像SQL那样对数据进行控制。Matplotpb能够对数据和记过进行可视化，快速理解数据。Scikit-Learn提供了机器学习算法的支持，Theano提供了升读学习框架（还可以使用CPU加速）。

5. Keras

Keras是深度学习库，人工神经网络和深度学习模型，基于Theano之上，依赖于Numpy和Scipy，利用它可以搭建普通的神经网络和各种深度学习模型，如语言处理、图像识别、自编码器、循环神经网络、递归审计网络、卷积神经网络等。

6. Scikit-Learn

Scikit-Learn是Python常用的机器学习工具包，提供了完善的机器学习工具箱，支持数据预处理、分类、回归、聚类、预测和模型分析等强大机器学习库，其依赖于Numpy、Scipy和Matplotpb等。

Scikit-Learn是基于Python机器学习的模块，基于BSD开源许可证。 Scikit-Learn的安装需要Numpy Scopy Matplotpb等模块，Scikit-Learn的主要功能分为六个部分，分类、回归、聚类、数据降维、模型选择、数据预处理。

Scikit-Learn自带一些经典的数据集，比如用于分类的iris和digits数据集，还有用于回归分析的boston house prices数据集。该数据集是一种字典结构，数据存储在.data成员中，输出标签存储在.target成员中。Scikit-Learn建立在Scipy之上，提供了一套常用的机器学习算法，通过一个统一的接口来使用，Scikit-Learn有助于在数据集上实现流行的算法。 Scikit-Learn还有一些库，比如：用于自然语言处理的Nltk、用于网站数据抓取的Scrappy、用于网络挖掘的Pattern、用于深度学习的Theano等。

7. Scrapy

Scrapy是专门为爬虫而生的工具，具有URL读取、HTML解析、存储数据等功能，可以使用Twisted异步网络库来处理网络通讯，架构清晰，且包含了各种中间件接口，可以灵活的完成各种需求。

8. Gensim

Gensim是用来做文本主题模型的库，常用于处理语言方面的任务，支持TF-IDF、LSA、LDA和Word2Vec在内的多种主题模型算法，支持流式训练，并提供了诸如相似度计算、信息检索等一些常用任务的API接口。

更多Python相关技术文章，请访问Python教程栏目进行学习！以上就是小编分享的关于python数据分析用什么软件的详细内容希望对大家有所帮助，更多有关python教程请关注环球青藤其它相关文章！

简介： Pylint 提供了简单的方式来分析 Python 代码，其高可配置性很容易使一个部门的人员使用统一的代码风格。本文将通过理论介绍和示例分析阐述如何 Pylint 来规范 Python 代码。

Pylint 是什么

Pylint 是一个 Python 代码分析工具，它分析 Python 代码中的错误，查找不符合代码风格标准（Pylint 默认使用的代码风格是 PEP 8，具体信息，请参阅参考资料）和有潜在问题的代码。目前 Pylint 的最新版本是 pylint-0.18.1。

Pylint 是一个 Python 工具，除了平常代码分析工具的作用之外，它提供了更多的功能：如检查一行代码的长度，变量名是否符合命名标准，一个声明过的接口是否被真正实现等等。

Pylint 的一个很大的好处是它的高可配置性，高可定制性，并且可以很容易写小插件来添加功能。

如果运行两次 Pylint，它会同时显示出当前和上次的运行结果，从而可以看出代码质量是否得到了改进。

目前在 eclipse 的 pydev 插件中也集成了 Pylint。

回页首

Pylint 具体介绍

Pylint 的安装

Pylint 可以用于所有高于或者等于 2.2 的 Python 版本兼容。需要 logilab-astng（version >= 0.14）和 logilab-common（version >= 0.13）的包（具体信息，请参阅参考资料），如果是 Python 版本低于 2.3，那么它还需要 optik 包（本文接下来的示例暂不考虑这种情况）。

Pylint 在 Linux 上的安装

1. 在 Linux 上，首先安装 Python 的包（高于版本 2.2），并在环境变量 $PATH 中添加 Python 可执行文件的路径。

2. 下载 Pylint、logilab-astng (version >= 0.14) 和 logilab-common (version >= 0.13) 的包 , 使用 tar zxvf *.tar.gz解压缩这些包。

3. 依次进入 logilab-astng、logilab-common 和 Pylint 解开的文件夹中，运行命令 Python setup.py install来安装。

4. 安装完成后，就可以通过 pylint [options] module_or_package来调用 Pylint 了。

Pylint 在 Windows 上的安装

1. 安装 Python 的包（高于版本 2.2），右键单击桌面上的我的电脑图标，选择属性，高级，环境变量，在 $PATH 中添加 Python 的安装路径，如 C:\Python26\。

2. 使用解压缩工具解压缩所有的包。

3. 打开命令行窗口，使用 cd依次进入 logilab-astng、logilab-common 和 Pylint 解开的文件夹中，运行命令 python setup.py install来安装。

4. 安装完成后，在 Python 的安装路径下出现一个 Scripts 文件夹，里面包含一些 bat 脚本，如 pylint.bat 等。

5. 为了使调用 pylint.bat 的时候不需要输入完整路径，在 Python 的安装目录下创建 pylint.bat 的重定向文件，这是一个纯文本文件 pylint.bat，里面包含 pylint.bat 的实际路径，如：C:\Python26\Scripts\pylint.bat。

6. 安装完成后，可以通过 pylint [options] module_or_package来调用 Pylint 了。

Pylint 的调用

清单 1. Pylint 的调用命令

pylint [options] module_or_package

使用 Pylint 对一个模块 module.py 进行代码检查：

1. 进入这个模块所在的文件夹，运行 pylint [options] module.py

这种调用方式是一直可以工作的，因为当前的工作目录会被自动加入 Python 的路径中。

2. 不进入模块所在的文件夹，运行 pylint [options] directory/module.py

这种调用方式当如下条件满足的时候是可以工作的：directory 是个 Python 包 ( 比如包含一个 __init__.py 文件 )，或者 directory 被加入了 Python 的路径中。

使用 Pylint 对一个包 pakage 进行代码检查：

1. 进入这个包所在文件夹，运行 pylint [options] pakage。

这种调用方式是一直可以工作的，因为当前的工作目录会被自动加入 Python 的路径中。

2. 不进入包所在的文件夹，运行 pylint [options] directory/ pakage。

这种情况下当如下条件满足的时候是可以工作的：directory 被加入了 Python 的路径中。比如在 Linux 上，export PYTHONPATH=$PYTHONPATH: directory。

此外，对于安装了 tkinter 包的机器，可以使用命令 pylint-gui打开一个简单的 GUI 界面，在这里输入模块或者包的名字 ( 规则同命令行 ), 点击 Run，Pylint 的输出会在 GUI 中显示。

Pylint 的常用命令行参数

-h,--help

显示所有帮助信息。

--generate-rcfile

可以使用 pylint --generate-rcfile 来生成一个配置文件示例。可以使用重定向把这个配置文件保存下来用做以后使用。也可以在前面加上其它选项，使这些选项的值被包含在这个产生的配置文件里。如：pylint --persistent=n --generate-rcfile >pylint.conf，查看 pylint.conf，可以看到 persistent=no，而不再是其默认值 yes。

--rcfile=<file>

指定一个配置文件。把使用的配置放在配置文件中，这样不仅规范了自己代码，也可以方便地和别人共享这些规范。

-i <y_or_n>, --include-ids=<y_or_n>

在输出中包含 message 的 id, 然后通过 pylint --help-msg=<msg-id>来查看这个错误的详细信息，这样可以具体地定位错误。

-r <y_or_n>, --reports=<y_or_n>

默认是 y, 表示 Pylint 的输出中除了包含源代码分析部分，也包含报告部分。

--files-output=<y_or_n>

将每个 module /package 的 message 输出到一个以 pylint_module/package. [txt|html] 命名的文件中，如果有 report 的话，输出到名为 pylint_global.[txt|html] 的文件中。默认是输出到屏幕上不输出到文件里。

-f <format>, --output-format=<format>

设置输出格式。可以选择的格式有 text, parseable, colorized, msvs (visual studio) 和 html, 默认的输出格式是 text。

--disable-msg= <msg ids>

禁止指定 id 的 message. 比如说输出中包含了 W0402 这个 warning 的 message, 如果不希望它在输出中出现，可以使用 --disable-msg= W0402

Pylint 的输出

Pylint的默认输出格式是原始文本（raw text）格式，可以通过 -f <format>，--output-format=<format>来指定别的输出格式如html等等。在Pylint的输出中有如下两个部分：源代码分析部分和报告部分。

源代码分析部分：

对于每一个 Python 模块，Pylint 的结果中首先显示一些"*"字符 , 后面紧跟模块的名字，然后是一系列的 message, message 的格式如下：

MESSAGE_TYPE: LINE_NUM:[OBJECT:] MESSAGE

MESSAGE_TYPE 有如下几种：

(R) 重构。写得非常糟糕的代码。

(W) 警告。某些 Python 特定的问题。

(E) 错误。很可能是代码中的错误。

(F) 致命错误。阻止 Pylint 进一步运行的错误。

清单 2. Pylint 中的 utils 模块的输出结果

************* Module utils

C: 88:Message: Missing docstring

R: 88:Message: Too few public methods (0/2)

C:183:MessagesHandlerMixIn._cat_ids: Missing docstring

R:183:MessagesHandlerMixIn._cat_ids: Method could be a function

R:282:MessagesHandlerMixIn.list_messages: Too many branches (14/12)

报告部分：

在源代码分析结束后面，会有一系列的报告，每个报告关注于项目的某些方面，如每种类别的 message 的数目，模块的依赖关系等等。具体来说，报告中会包含如下的方面：

检查的 module 的个数。

对于每个 module, 错误和警告在其中所占的百分比。比如有两个 module A 和 B, 如果一共检查出来 4 个错误，1 个错误是在 A 中，3 个错误是在 B 中，那么 A 的错误的百分比是 25%, B 的错误的百分比是 75%。

错误，警告的总数量。

回页首

使用 Pylint 分析 Python 代码的具体示例

下面是一个从 xml 文件中读取一些值并显示出来的一段 Python 代码 dw.py，代码如下：

清单 3. 源码

import string

#!/usr/bin/env python

import xml.dom.minidom

xmlDom=xml.dom.minidom.parse("identity.xml")

organizations = xmlDom.getElementsByTagName('DW')

for org in organizations:

products = org.getElementsByTagName('linux')

for product in products:

print 'ID: ' + product.getAttribute('id')

print 'Name: ' + product.getAttribute('name')

print 'Word Count: ' + product.getAttribute('count')

清单 4. identity.xml 的内容

<IBM>

<DW>

</DW>

</IBM>

这时候使用 Pylint 的结果（这是从 html 格式的输出中拷贝的）为：

清单 5. Pylint 的分析结果

************* Module dw

C:1:Missing docstring

C:5:Operator not preceded by a space xmlDom=xml.dom.minidom.parse("identity.xml") ^

C:5:Invalid name "xmlDom" (should match (([A-Z_][A-Z0-9_]*)|(__.*__))$)

C:6:Invalid name "organizations" (should match (([A-Z_][A-Z0-9_]*)|(__.*__))$)

Report 部分省略

输出中第一部分是源代码分析，第二部分是报告。输出结果中有这么多信息，从哪里开始分析呢？首先使用如下的步骤来分析代码：

1. 因为输出结果太长，所以可以先不让它输出报告部分，先根据源代码分析部分来找出代码中的问题。使用选项 "--reports=n"。

2. 使用选项 "--include-ids=y"。可以获取到源代码分析部分每条信息的 ID。

清单 6. 使用 pylint --reports=n --include-ids=y dw.py 的结果

************* Module dw

C0111: 1: Missing docstring

C0322: 5: Operator not preceded by a space xmlDom=xml.dom.minidom.parse("identity.xml") ^

C0103: 5: Invalid name "xmlDom" (should match (([A-Z_][A-Z0-9_]*)|(__.*__))$)

C0103: 6: Invalid name "organizations" (should match (([A-Z_][A-Z0-9_]*)|(__.*__))$)

每个信息前面都会加上一个 id, 如果不理解这个信息的意思，可以通过 pylint --help-msg=id来查看。

清单 7. 使用 pylint --help-msg= C0111 的结果

C0111: *Missing docstring*

Used when a module, function, class or method has no docstring. Some special

methods like __init__ doesn't necessary require a docstring.

This message belongs to the basic checker.

3. 开始分析每个源代码中的问题。从上面知道，第一个问题的原因是缺少 docstring，在代码中增加 docstring, 修改后的代码如下：

清单 8. 增加 docstring 修改后的源码

#!/usr/bin/env python

"""This script parse the content of a xml file"""

import xml.dom.minidom

xmlDom=xml.dom.minidom.parse("identity.xml")

organizations = xmlDom.getElementsByTagName('DW')

for org in organizations:

products = org.getElementsByTagName('linux')

for product in products:

print 'ID: ' + product.getAttribute('id')

print 'Name: ' + product.getAttribute('name')

print 'Word Count: ' + product.getAttribute('count')

重新运行 pylint --reports=n --include-ids=y dw.py，结果为：

清单 9. 运行结果

************* Module dw

C0322: 7: Operator not preceded by a space

xmlDom=xml.dom.minidom.parse("identity.xml")

C0103: 7: Invalid name "xmlDom" (should match (([A-Z_][A-Z0-9_]*)|(__.*__))$)

C0103: 8: Invalid name "organizations" (should match (([A-Z_][A-Z0-9_]*)|(__.*__))$)

可以看到源代码中的第一个问题已被解决。

4. 关于第二个 C0322 的问题，这里的分析结果说明得比较清楚，是代码第七行中的等号运算符两边没有空格。我们在这里加上空格，重新运行 pylint --reports=n --include-ids=y dw.py，结果为：

清单 10. 运行结果

************* Module dw

C0103: 7: Invalid name "xmlDom" (should match (([A-Z_][A-Z0-9_]*)|(__.*__))$)

C0103: 8: Invalid name "organizations" (should match (([A-Z_][A-Z0-9_]*)|(__.*__))$)

5. 可以看到现在问题只剩下 C0103 了。这里的意思是变量命名规则应该符合后面正则表达式的规定。Pylint 定义了一系列针对变量，函数，类等的名字的命名规则。实际中我们不一定要使用这样的命名规则，我们可以定义使用正则表达式定义自己的命名规则，比如使用选项 --const-rgx='[a-z_][a-z0-9_]{2,30}$'，我们将变量 xmlDom改为 xmldom, 代码如下：

清单 11. 将变量 xmlDom 改为 xmldom 后的源码

#!/usr/bin/env python

"""This script parse the content of a xml file"""

import xml.dom.minidom

xmldom = xml.dom.minidom.parse("identity.xml")

organizations = xmldom.getElementsByTagName('DW')

for org in organizations:

products = org.getElementsByTagName('linux')

for product in products:

print 'ID: ' + product.getAttribute('id')

print 'Name: ' + product.getAttribute('name')

print 'Word Count: ' + product.getAttribute('count')

运行 pylint --reports=n --include-ids=y --const-rgx='[a-z_][a-z0-9_]{2,30}$' dw.py，结果中就没有任何问题了。

6. 如果希望一个组里的人都使用这些统一的规则，来规范一个部门的代码风格。比如说大家都使用 --const-rgx='[a-z_][a-z0-9_]{2,30}$'作为命名规则，那么一个比较便捷的方法是使用配置文件。

使用 pylint --generate-rcfile >pylint.conf来生成一个示例配置文件，然后编辑其中的 --const-rgx选项。或者也可以直接pylint --const-rgx='[a-z_][a-z0-9_]{2,30}$' --generate-rcfile >pylint.conf，这样生成的配置文件中 --const-rgx选项直接就是 '[a-z_][a-z0-9_]{2,30}$'了。

以后运行 Pylint 的时候指定配置文件：pylint --rcfile=pylint.conf dw.py

这样 Pylint 就会按照配置文件 pylint.conf中的选项来指定参数。在一个部门中，大家可以共同使用同一个配置文件，这样就可以保持一致的代码风格。

7. 如果把 report 部分加上，即不使用 --reports=n，可以看到报告部分的内容。

回页首

结束语

本文通过详细的理论介绍和简单易懂的实例全面介绍了 Python 代码分析工具 Pylint。相信读者看完后一定可以轻松地将 Pylint 运用到自己的开发工程中。

参考资料

Pylint 官方网站。

logilab-astng 的最新包下载。

logilab-common 的最新包下载。

optik 的包下载。

Pylint 的最新包下载。

查看 Python 代码风格标准 PEP 8 -- Style Guide for Python Code下载。

numpy是我学习python遇到的第一个第三方工具包，它可以让我们快速上手数据分析。numpy提供了向量和矩阵计算和处理的大部分接口。目前很多python的基础工具包都是基于numpy开发而来，比如 scikit-learn, SciPy, pandas, 还有 tensorflow。 numpy可以处理表格、图像、文本等数据，极大地方便我们处理和分析数据。本文主要内容来自于Jay Alammar的一篇文章以及自己学习记录。

原文地址： https://jalammar.github.io/visual-numpy/

使用过程中，如果希望 Numpy 能创建并初始化数组的值， Numpy 提供了 ones()、zeros() 和 random.random() 等方法。只需传递希望生成的元素数量（大小）即可：

还可以进行如下操作：

一般，需要数组和单个数字之间也可以进行运算操作（即向量和标量之间的运算）。比如说 data * 1.6 ，numpy利用一个叫做广播机制（broadcasting）的概念实现了这一运算。：

我们可以通过索引对numpy数据获取任意位置数据或者对数据切片

我们可以通过numpy自带的函数对数据进行一些想要的聚合计算，比如min、max 和 sum ，还可以使用 mean 得到平均值，使用 prod 得到所有元素的乘积，使用 std 得到标准差等等。

上述操作不仅可以应用于单维度数据，还可以用于多维度数据{（矩阵）。

同样可以使用ones()、zeros() 和 random.random()创建矩阵，只要写入一个描述矩阵维数的元组即可：

numpy还可以处理更高维度的数据：

创建更高维度数据只需要在创建时，在参数中增加一个维度值即可：

根据数组中数值是否满足条件，输出为True或False.

希望得到满足条件的索引，用np.where函数实现.