可以让你快速用Python进行数据分析的10个小技巧

2023-04-15 07:24:02Python027

可以让你快速用Python进行数据分析的10个小技巧,第1张

一些小提示和小技巧可能是非常有用的，特别是在编程领域。有时候使用一点点黑客技术，既可以节省时间，还可能挽救“生命”。

一个小小的快捷方式或附加组件有时真是天赐之物，并且可以成为真正的生产力助推器。所以，这里有一些小提示和小技巧，有些可能是新的，但我相信在下一个数据分析项目中会让你非常方便。

Pandas中数据框数据的Profiling过程

Profiling（分析器）是一个帮助我们理解数据的过程，而Pandas Profiling是一个Python包，它可以简单快速地对Pandas 的数据框数据进行探索性数据分析。

Pandas中df.describe()和df.info()函数可以实现EDA过程第一步。但是，它们只提供了对数据非常基本的概述，对于大型数据集没有太大帮助。而Pandas中的Profiling功能简单通过一行代码就能显示大量信息，且在交互式HTML报告中也是如此。

对于给定的数据集，Pandas中的profiling包计算了以下统计信息：

由Pandas Profiling包计算出的统计信息包括直方图、众数、相关系数、分位数、描述统计量、其他信息——类型、单一变量值、缺失值等。

安装

用pip安装或者用conda安装

pip install pandas-profiling

conda install -c anaconda pandas-profiling

用法

下面代码是用很久以前的泰坦尼克数据集来演示多功能Python分析器的结果。

#importing the necessary packages

import pandas as pd

import pandas_profiling

df = pd.read_csv('titanic/train.csv')

pandas_profiling.ProfileReport(df)

一行代码就能实现在Jupyter Notebook中显示完整的数据分析报告，该报告非常详细，且包含了必要的图表信息。

还可以使用以下代码将报告导出到交互式HTML文件中。

profile = pandas_profiling.ProfileReport(df)

profile.to_file(outputfile="Titanic data profiling.html")

Pandas实现交互式作图

Pandas有一个内置的.plot（）函数作为DataFrame类的一部分。但是，使用此功能呈现的可视化不是交互式的，这使得它没那么吸引人。同样，使用pandas.DataFrame.plot（）函数绘制图表也不能实现交互。如果我们需要在不对代码进行重大修改的情况下用Pandas绘制交互式图表怎么办呢？这个时候就可以用Cufflinks库来实现。

Cufflinks库可以将有强大功能的plotly和拥有灵活性的pandas结合在一起，非常便于绘图。下面就来看在pandas中如何安装和使用Cufflinks库。

安装

pip install plotly

# Plotly is a pre-requisite before installing cufflinks

pip install cufflinks

用法

#importing Pandas

import pandas as pd

#importing plotly and cufflinks in offline mode

import cufflinks as cf

import plotly.offline

cf.go_offline()

cf.set_config_file(offline=False, world_readable=True)

是时候展示泰坦尼克号数据集的魔力了。

df.iplot()

df.iplot() vs df.plot()

右侧的可视化显示了静态图表，而左侧图表是交互式的，更详细，并且所有这些在语法上都没有任何重大更改。

Magic命令

Magic命令是Jupyter notebook中的一组便捷功能，旨在解决标准数据分析中的一些常见问题。使用命令％lsmagic可以看到所有的可用命令。

所有可用的Magic命令列表

Magic命令有两种：行magic命令（line magics），以单个％字符为前缀，在单行输入操作；单元magic命令（cell magics），以双%%字符为前缀，可以在多行输入操作。如果设置为1，则不用键入%即可调用Magic函数。

接下来看一些在常见数据分析任务中可能用到的命令：

% pastebin

％pastebin将代码上传到Pastebin并返回url。Pastebin是一个在线内容托管服务，可以存储纯文本，如源代码片段，然后通过url可以与其他人共享。事实上，Github gist也类似于pastebin，只是有版本控制。

在file.py文件中写一个包含以下内容的python脚本，并试着运行看看结果。

#file.py

def foo(x):

return x

在Jupyter Notebook中使用％pastebin生成一个pastebin url。

%matplotlib notebook

函数用于在Jupyter notebook中呈现静态matplotlib图。用notebook替换inline，可以轻松获得可缩放和可调整大小的绘图。但记得这个函数要在导入matplotlib库之前调用。

%run

用％run函数在notebook中运行一个python脚本试试。

%run file.py

%%writefile

%% writefile是将单元格内容写入文件中。以下代码将脚本写入名为foo.py的文件并保存在当前目录中。

%%latex

%%latex函数将单元格内容以LaTeX形式呈现。此函数对于在单元格中编写数学公式和方程很有用。

查找并解决错误

交互式调试器也是一个神奇的功能，我把它单独定义了一类。如果在运行代码单元时出现异常，请在新行中键入％debug并运行它。这将打开一个交互式调试环境，它能直接定位到发生异常的位置。还可以检查程序中分配的变量值，并在此处执行操作。退出调试器单击q即可。

Printing也有小技巧

如果您想生成美观的数据结构，pprint是首选。它在打印字典数据或JSON数据时特别有用。接下来看一个使用print和pprint来显示输出的示例。

让你的笔记脱颖而出

我们可以在您的Jupyter notebook中使用警示框/注释框来突出显示重要内容或其他需要突出的内容。注释的颜色取决于指定的警报类型。只需在需要突出显示的单元格中添加以下任一代码或所有代码即可。

蓝色警示框：信息提示

Tip:Use blue boxes (alert-info) for tips and notes.

If it’s a note, you don’t have to include the word “Note”.

黄色警示框：警告

Example:Yellow Boxes are generally used to include additional examples or mathematical formulas.

绿色警示框：成功

Use green box only when necessary like to display links to related content.

红色警示框：高危

It is good to avoid red boxes but can be used to alert users to not delete some important part of code etc.

打印单元格所有代码的输出结果

假如有一个Jupyter Notebook的单元格，其中包含以下代码行：

In [1]: 10+5

11+6

Out [1]: 17

单元格的正常属性是只打印最后一个输出，而对于其他输出，我们需要添加print()函数。然而通过在notebook顶部添加以下代码段可以一次打印所有输出。

添加代码后所有的输出结果就会一个接一个地打印出来。

In [1]: 10+5

11+6

12+7

Out [1]: 15

Out [1]: 17

Out [1]: 19

恢复原始设置：

InteractiveShell.ast_node_interactivity = "last_expr"

使用'i'选项运行python脚本

从命令行运行python脚本的典型方法是：python hello.py。但是，如果在运行相同的脚本时添加-i，例如python -i hello.py，就能提供更多优势。接下来看看结果如何。

首先，即使程序结束，python也不会退出解释器。因此，我们可以检查变量的值和程序中定义的函数的正确性。

其次，我们可以轻松地调用python调试器，因为我们仍然在解释器中：

import pdb

pdb.pm()

这能定位异常发生的位置，然后我们可以处理异常代码。

自动评论代码

Ctrl / Cmd + /自动注释单元格中的选定行，再次命中组合将取消注释相同的代码行。

删除容易恢复难

你有没有意外删除过Jupyter notebook中的单元格？如果答案是肯定的，那么可以掌握这个撤消删除操作的快捷方式。

如果您删除了单元格的内容，可以通过按CTRL / CMD + Z轻松恢复它。

如果需要恢复整个已删除的单元格，请按ESC + Z或EDIT>撤消删除单元格。

结论

在本文中，我列出了使用Python和Jupyter notebook时收集的一些小提示。我相信它们会对你有用，能让你有所收获，从而实现轻松编码！

pre{overflow-x: auto}

Python 是世界上使用最广泛的编程语言之一。它是一种解释型高级通用编程语言，具有广泛的用途，几乎可以将其用于所有事物。其以简单的语法、优雅的代码和丰富的第三方库而闻名。python除了有很多优点外，但在速度上还有一个非常大的缺点。

虽然Python代码运行缓慢，但可以通过下面分享的5个小技巧提升Python运行速度！

首先，定义一个计时函数timeshow，通过简单的装饰，可以打印指定函数的运行时间。

这个函数在下面的例子中会被多次使用。

def timeshow(func): from time import time def newfunc(*arg, **kw): t1 = time() res = func(*arg, **kw) t2 = time() print(f"{func.__name__: >10} : {t2-t1:.6f} sec") return res return newfunc @timeshow def test_it(): print("hello pytip") test_it() 1. 选择合适的数据结构

使用正确的数据结构对python脚本的运行时间有显着影响。Python 有四种内置的数据结构：

列表 : List

元组 : Tuple

集合 : Set

字典 : Dictionary

但是，大多数开发人员在所有情况下都使用列表。这是不正确的做法，应该根据任务使用合适数据结构。

运行下面的代码，可以看到元组执行简单检索操作的速度比列表快。其中dis模块反汇编了一个函数的字节码，这有利于查看列表和元组之间的区别。

import dis def a(): data = [1, 2, 3, 4, 5,6,7,8,9,10] x =data[5] return x def b(): data = (1, 2, 3, 4, 5,6,7,8,9,10) x =data[5] return x print("-----:使用列表的机器码:------") dis.dis(a) print("-----:使用元组的机器码:------") dis.dis(b)

运行输出:

-----:使用列表的机器码:------

3 0 LOAD_CONST 1 (1)

2 LOAD_CONST 2 (2)

4 LOAD_CONST 3 (3)

6 LOAD_CONST 4 (4)

8 LOAD_CONST 5 (5)

10 LOAD_CONST 6 (6)

12 LOAD_CONST 7 (7)

14 LOAD_CONST 8 (8)

16 LOAD_CONST 9 (9)

18 LOAD_CONST 10 (10)

20 BUILD_LIST 10

22 STORE_FAST 0 (data)

4 24 LOAD_FAST 0 (data)

26 LOAD_CONST 5 (5)

28 BINARY_SUBSCR

30 STORE_FAST 1 (x)

5 32 LOAD_FAST 1 (x)

34 RETURN_VALUE

-----:使用元组的机器码:------

7 0 LOAD_CONST 1 ((1, 2, 3, 4, 5, 6, 7, 8, 9, 10))

2 STORE_FAST 0 (data)

8 4 LOAD_FAST 0 (data)

6 LOAD_CONST 2 (5)

8 BINARY_SUBSCR

10 STORE_FAST 1 (x)

9 12 LOAD_FAST 1 (x)

14 RETURN_VALUE

看下列表的机器码，冗长而多余！

2. 善用强大的内置函数和第三方库

如果你正在使用python并且仍在自己编写一些通用函数(比如加法、减法)，那么是在侮辱python。 Python有大量的库和内置函数来帮助你不用编写这些函数。如果研究下，那么你会惊奇地发现几乎90%的问题已经有第三方包或内置函数来解决。

可以通过访问官方文档查看所有内置函数。你也可以在wiki python上找到更多使用内置函数的场景。

比如，现在我们想合并列表中的所有单词为一个句子，比较法自己编写和调用库函数的区别:

# ❌ 正常人能想到的方法 @timeshow def f1(list): s ="" for substring in list: s += substring return s # ✅ pythonic 的方法 @timeshow def f2(list): s = "".join(list) return s l = ["I", "Love", "Python"] * 1000 # 为了看到差异，我们把这个列表放大了 f1(l) f2(l)

运行输出:

f1 : 0.000227 sec

f2 : 0.000031 sec

3. 少用循环

用列表推导式代替循环

用迭代器代替循环

用 filter() 代替循环

减少循环次数，精确控制，不浪费CPU

## 返回n以内的可以被7整除的所有数字。 # ❌ 正常人能想到的方法: @timeshow def f_loop(n): L=[] for i in range(n): if i % 7 ==0: L.append(i) return L # ✅ 列表推导式 @timeshow def f_list(n): L = [i for i in range(n) if i % 7 == 0] return L # ✅ 迭代器 @timeshow def f_iter(n): L = (i for i in range(n) if i % 7 == 0) return L # ✅ 过滤器 @timeshow def f_filter(n): L = filter(lambda x: x % 7 == 0, range(n)) return L # ✅ 精确控制循环次数 @timeshow def f_mind(n): L = (i*7 for i in range(n//7)) return L n = 1_000_000 f_loop(n) f_list(n) f_iter(n) f_filter(n) f_mind(n)

输出为:

f_loop : 0.083017 sec

f_list : 0.056110 sec

f_iter : 0.000015 sec

f_filter : 0.000003 sec

f_mind : 0.000002 sec

谁快谁慢，一眼便知！

filter 配合 lambda 大法就是屌！！！

4. 避免循环重复计算

如果你有一个迭代器，必须用它的元素做一些耗时计算，比如匹配正则表达式。你应该将正则表达式模式定义在循环之外，因为最好只编译一次模式，而不是在循环的每次迭代中一次又一次地编译它。

只要有可能，就应该尝试在循环外进行尽可能多的运算，比如将函数计算分配给局部变量，然后在函数中使用它。

# ❌ 应改避免的方式： @timeshow def f_more(s): import re for i in s: m = re.search(r'a*[a-z]?c', i) # ✅ 更好的方式： @timeshow def f_less(s): import re regex = re.compile(r'a*[a-z]?c') for i in s: m = regex.search(i) s = ["abctestabc"] * 1_000 f_more(s) f_less(s)

输出为:

f_more : 0.001068 sec

f_less : 0.000365 sec

5. 少用内存、少用全局变量

内存占用是指程序运行时使用的内存量。为了让Python代码运行得更快，应该减少程序的内存使用量，即尽量减少变量或对象的数量。

Python 访问局部变量比全局变量更有效。在有必要之前，应该始终尝试忽略声明全局变量。一个在程序中定义过的全局变量会一直存在，直到整个程序编译完成，所以它一直占据着内存空间。另一方面，局部变量访问更快，且函数完成后即可回收。因此，使用多个局部变量比使用全局变量会更好。

# ❌ 应该避免的方式： message = "Line1\n" message += "Line2\n" message += "Line3\n" # ✅ 更好的方式： l = ["Line1","Line2","Line3"] message = '\n'.join(l) # ❌ 应该避免的方式： x = 5 y = 6 def add(): return x+y add() # ✅ 更好的方式： def add(): x = 5 y = 6 return x+y add()

总结

本篇文章就到这里了，希望能够给你带来帮助，也希望您能够多多关注的更多内容!

1. Pandas.apply() – 特征工程瑰宝

Pandas 库已经非常优化了，但是大部分人都没有发挥它的最大作用。想想它一般会用于数据科学项目中的哪些地方。一般首先能想到的就是特征工程，即用已有特征创造新特征。其中最高效的方法之一就是Pandas.apply()，即Pandas中的apply函数。

在Pandas.apply()中，可以传递用户定义功能并将其应用到Pandas Series的所有数据点中。这个函数是Pandas库最好的扩展功能之一，它能根据所需条件分隔数据。之后便能将其有效应用到数据处理任务中。

2. Pandas.DataFrame.loc – Python数据操作绝妙技巧

所有和数据处理打交道的数据科学家(差不多所有人了!)都应该学会这个方法。

很多时候，数据科学家需要根据一些条件更新数据集中某列的某些值。Pandas.DataFrame.loc就是此类问题最优的解决方法。

3. Python函数向量化

另一种解决缓慢循环的方法就是将函数向量化。这意味着新建函数会应用于输入列表，并返回结果数组。在Python中使用向量化能至少迭代两次，从而加速计算。

事实上，这样不仅能加速代码运算，还能让代码更加简洁清晰。

4. Python多重处理