python 哪个包里有 遗传算法

Python017

python 哪个包里有 遗传算法,第1张

scikit-opt 调研过很多遗传算法库,这个挺好用的。

# 目标函数

def demo_func(x):

    x1, x2, x3 = x    

    return x1 ** 2 + (x2 - 0.05) ** 2 + x3 ** 2

from ga import GA

调用遗传算法求解:

ga = GA(func=demo_func, lb=[-1, -10, -5], ub=[2, 10, 2], max_iter=500)

best_x, best_y = ga.fit()

甚至对tsp问题(Travelling Salesman Problem)也有很好的支持

ga_tsp = GA_TSP(func=cal_total_distance, points=points, pop=50, max_iter=200, Pm=0.001)

best_points, best_distance = ga_tsp.fit()

作者 | skura

来源 | AI开发者

大多数有抱负的数据科学家是通过学习为开发人员开设的编程课程开始认识 python 的,他们也开始解决类似 leetcode 网站上的 python 编程难题。他们认为在开始使用 python 分析数据之前,必须熟悉编程概念。

资深数据分析师 Manu Jeevan 认为,这是一个巨大的错误,因为数据科学家使用 python 来对数据进行检索、清洗、可视化和构建模型,而不是开发软件应用程序。实际上,为了完成这些任务,你必须将大部分时间集中在学习 python 中的模块和库上。他认为,学习数据科学的正确姿势应该如下文,AI 开发者进行了编译整理。

请按照下面这个步骤来学习数据科学的 python。

配置编程环境

Jupyter Notebook 是开发和展示数据科学项目的强大编程环境。

在电脑上安装 Jupyter Notebook 最简单的方法是通过 Anaconda 进行安装。Anaconda 是数据科学中使用最广泛的 python 工具,它预装了所有最流行的库。

你可以浏览标题为「A Beginner’s Guide to Installing Jupyter Notebook Using Anaconda Distribution」的博客文章(https://medium.com/better-programming/beginners-quick-guide-for-handling-issues-launching-jupyter-notebook-for-python-using-anaconda-8be3d57a209b),了解如何安装 Anaconda。安装 Anaconda 时,请选择最新的 python 3 版本。

安装完 Anaconda 后,请阅读 Code Academy 的这篇文章(https://www.codecademy.com/articles/how-to-use-jupyter-notebooks),了解如何使用 Jupyter Notebook。

只学习 python 的基础知识

Code Academy 有一门关于 python 的优秀课程,大约需要 20 个小时才能完成。你不必升级到 pro 版本,因为你的目标只是熟悉 python 编程语言的基础知识。课程地址:https://www.codecademy.com/learn/learn-python-3

NumPy 和 Pandas,学习的绝佳资源

在处理计算量大的算法和大量数据时,python 速度较慢。你可能会问,既然如此那为什么 python 是数据科学最流行的编程语言?

答案是,在 python 中,很容易以 C 或 Fortran 扩展的形式将数字处理任务转移到底层。这正是 NumPy 和 Pandas 所做的事情。

首先,你应该学会 NumPy。它是用 python 进行科学计算的最基本的模块。NumPy 支持高度优化的多维数组,这是大多数机器学习算法最基本的数据结构。

接下来,你应该学习 Pandas。数据科学家花费大部分时间清洗数据,这也被称为数据整。

Pandas 是操作数据最流行的 python 库。Pandas 是 NumPy 的延伸。Pandas 的底层代码广泛使用 NumPy 库。Pandas 的主要数据结构称为数据帧。

Pandas 的创造者 Wes McKinney 写了一本很棒的书,叫做《Python for Data Analysis》(https://www.amazon.com/Python-Data-Analysis-Wrangling-IPython-ebook/dp/B075X4LT6K)。在书中的第 4、5、7、8 和 10 章可以学习 Pandas 和 NumPy。这些章节涵盖了最常用的 NumPy 和 Pandas 特性来处理数据。

学习使用 Matplotlib 可视化数据

Matplotlib 是用于创建基本可视化图形的基本 python 包。你必须学习如何使用 Matplotlib 创建一些最常见的图表,如折线图、条形图、散点图、柱状图和方框图。

另一个建立在 Matplotlib 之上并与 Pandas 紧密结合的好的绘图库是 Seaborn。在这个阶段,我建议你快速学习如何在 Matplotlib 中创建基本图表,而不是专注于 Seaborn。

我写了一个关于如何使用 Matplotlib 开发基本图的教程,该教程由四个部分组成。

第一部分:Matplotlib 绘制基本图(http://nbviewer.ipython.org/gist/manujeevanprakash/138c66c44533391a5af1) 第二部分:如何控制图形的样式和颜色,如标记、线条粗细、线条图案和使用颜色映射(https://nbviewer.jupyter.org/gist/manujeevanprakash/7dc56e7906ee83e0bbe6) 第三部分:注释、控制轴范围、纵横比和坐标系(https://nbviewer.jupyter.org/gist/manujeevanprakash/7cdf7d659cd69d0c22b2) 第四部分:处理复杂图形(https://nbviewer.jupyter.org/gist/manujeevanprakash/7d8a9860f8e43f6237cc)

你可以通过这些教程来掌握 Matplotlib 的基本知识。

简而言之,你不必花太多时间学习 Matplotlib,因为现在公司已经开始采用 Tableau 和 Qlik 等工具来创建交互式可视化。

如何使用 SQL 和 python

数据有组织地驻留在数据库中。因此,你需要知道如何使用 SQL 检索数据,并使用 python 在 Jupyter Notebook 中执行分析。

数据科学家使用 SQL 和 Pandas 来操纵数据。有一些数据操作任务使用 SQL 就可以很容易地执行,并且有一些任务可以使用 Pandas 高效地完成。我个人喜欢使用 SQL 来检索数据并在 Pandas 中进行操作。

如今,公司使用 Mode Analytics 和 Databricks 等分析平台来轻松地使用 python 和 SQL。

所以,你应该知道如何一起有效地使用 SQL 和 python。要了解这一点,你可以在计算机上安装 SQLite 数据库,并在其中存储一个 CSV 文件,然后使用 python 和 SQL 对其进行分析。

这里有一篇精彩的博客文章,向你展示了如何做到这一点:Programming with Databases in Python using SQLite(https://medium.com/analytics-vidhya/programming-with-databases-in-python-using-sqlite-4cecbef51ab9)。

在浏览上述博客文章之前,你应该了解 SQL 的基础知识。Mode Analytics 上有一个很好的关于 SQL 的教程:Introduction to SQL(https://medium.com/analytics-vidhya/programming-with-databases-in-python-using-sqlite-4cecbef51ab9)。通过他们的基本 SQL 部分,了解 SQL 的基本知识,每个数据科学家都应该知道如何使用 SQL 有效地检索数据。

学习和 python 相关的基本统计学知识

多数有抱负的数据科学家在不学习统计学的基础知识的情况下,就直接跳到机器学习知识的学习中。

不要犯这个错误,因为统计学是数据科学的支柱。而且,很多数据科学家学习统计学只是学习理论概念,而不是学习实践概念。

我的意思是,通过实践概念,你应该知道什么样的问题可以用统计学来解决,了解使用统计数据可以解决哪些挑战。

以下是你应该了解的一些基本统计概念:

抽样、频率分布、平均值、中位数、模式、变异性度量、概率基础、显著性检验、标准差、z 评分、置信区间和假设检验(包括 A/B 检验)

要学习这些知识,有一本很好的书可以看看:《Practical Statistics for Data Scientists: 50 Essential Concepts》(https://www.amazon.com/Practical-Statistics-Data-Scientists-Essential/dp/9352135652)。不幸的是,本书中的代码示例是用 R 编写的,但是很多人包括我自己在内使用的是 Python。

我建议你阅读本书的前四章。阅读本书的前 4 章,了解我前面提到的基本统计概念,你可以忽略代码示例,只了解这些概念。本书的其余章节主要集中在机器学习上。我将在下一部分讨论如何学习机器学习。

大多数人建议使用 Think Stats (https://www.amazon.com/Think-Stats-Allen-B-Downey/dp/1449307116)来学习 python 的统计知识,但这本书的作者教授了自己的自定义函数,而不是使用标准的 python 库来进行统计知识讲解。因此,我不推荐这本书。

接下来,你的目标是实现在 Python 中学习的基本概念。StatsModels 是一个流行的 python 库,用于在 python 中构建统计模型。StatsModels 网站提供了关于如何使用 Python 实现统计概念的优秀教程。

或者,你也可以观看 Ga?l Varoquaux 的视频。他向你展示了如何使用 Pandas 和统计模型进行推理和探索性统计。

使用 Scikit-Learn 进行机器学习

Scikit-Learn 是 Python 中最流行的机器学习库之一。你的目标是学习如何使用 Scikit Learn 实现一些最常见的机器学习算法。

你应该像下面这样做。

首先,观看 Andrew Ng 在 Coursera 上的机器学习课程(https://www.coursera.org/learn/machine-learning)的第 1、2、 3、6,、7 和第 8 周视频。我跳过了关于神经网络的部分,因为作为初学者,你必须关注最通用的机器学习技术。

完成后,阅读「Hands-On Machine Learning with Scikit-Learn and TensorFlow」一书(https://www.amazon.com/Hands-Machine-Learning-Scikit-Learn-TensorFlow/dp/1491962291)。你只需浏览这本书的第一部分(大约 300 页),它是最实用的机器学习书籍之一。

通过完成本书中的编码练习,你将学习如何使用 python 实现你在 Andrew Ng 课程中学习到的理论概念。

结论

最后一步是做一个涵盖上述所有步骤的数据科学项目。你可以找到你喜欢的数据集,然后提出有趣的业务问题,再通过分析来回答这些问题。但是,请不要选择像泰坦尼克号这样的通用数据集。你可以阅读「19 places to find free data sets for your data science project」来查找合适的数据集(https://www.dataquest.io/blog/free-datasets-for-projects/)。

另一种方法是将数据科学应用到你感兴趣的领域。例如,如果你想预测股票市场价格,那么你可以从 Yahoo Finance (https://www.scrapehero.com/scrape-yahoo-finance-stock-market-data/)中获取实时数据,并将其存储在 SQL 数据库中,然后使用机器学习来预测股票价格。

如果你希望从其它行业转行到数据科学,我建议你完成一个利用你的领域专业知识的项目。关于这些,我在以前的博客文章"A Step-by-Step Guide to Transitioning your Career to Data Science – Part 1"(https://www.kdnuggets.com/2019/05/guide-transitioning-career-data-science-part-1.html) 和"A Step-by-Step Guide to Transitioning your Career to Data Science – Part 2"(https://www.kdnuggets.com/2019/06/guide-transitioning-career-data-science-part-2.html)中有提到过。

一、遗传算法介绍

遗传算法是通过模拟大自然中生物进化的历程,来解决问题的。大自然中一个种群经历过若干代的自然选择后,剩下的种群必定是适应环境的。把一个问题所有的解看做一个种群,经历过若干次的自然选择以后,剩下的解中是有问题的最优解的。当然,只能说有最优解的概率很大。这里,我们用遗传算法求一个函数的最大值。

f(x) = 10 * sin( 5x ) + 7 * cos( 4x ),0 <= x <= 10

1、将自变量x进行编码

取基因片段的长度为10, 则10位二进制位可以表示的范围是0到1023。基因与自变量转变的公式是x = b2d(individual) * 10 / 1023。构造初始的种群pop。每个个体的基因初始值是[0, 1, 0, 1, 0, 1, 0, 1, 0, 1]

2、计算目标函数值

根据自变量与基因的转化关系式,求出每个个体的基因对应的自变量,然后将自变量代入函数f(x),求出每个个体的目标函数值。

3、适应度函数

适应度函数是用来评估个体适应环境的能力,是进行自然选择的依据。本题的适应度函数直接将目标函数值中的负值变成0. 因为我们求的是最大值,所以要使目标函数值是负数的个体不适应环境,使其繁殖后代的能力为0.适应度函数的作用将在自然选择中体现。

4、自然选择

自然选择的思想不再赘述,操作使用轮盘赌算法。其具体步骤:

假设种群中共5个个体,适应度函数计算出来的个体适应性列表是fitvalue = [1 ,3, 0, 2, 4] ,totalvalue = 10 , 如果将fitvalue画到圆盘上,值的大小表示在圆盘上的面积。在转动轮盘的过程中,单个模块的面积越大则被选中的概率越大。选择的方法是将fitvalue转化为[1 , 4 ,4 , 6 ,10], fitvalue / totalvalue = [0.1 , 0.4 , 0.4 , 0.6 , 1.0] . 然后产生5个0-1之间的随机数,将随机数从小到大排序,假如是[0.05 , 0.2 , 0.7 , 0.8 ,0.9],则将0号个体、1号个体、4号个体、4号个体、4号个体拷贝到新种群中。自然选择的结果使种群更符合条件了。

5、繁殖

假设个体a、b的基因是

a = [1, 0, 0, 0, 0, 1, 1, 1, 0, 0]

b = [0, 0, 0, 1, 1, 0, 1, 1, 1, 1]

这两个个体发生基因交换的概率pc = 0.6.如果要发生基因交换,则产生一个随机数point表示基因交换的位置,假设point = 4,则:

a = [1, 0, 0, 0, 0, 1, 1, 1, 0, 0]

b = [0, 0, 0, 1, 1, 0, 1, 1, 1, 1]

交换后为:

a = [1, 0, 0, 0, 1, 0, 1, 1, 1, 1]

b = [0, 0, 0, 1, 0, 1, 1, 1, 0, 0]

6、突变

遍历每一个个体,基因的每一位发生突变(0变为1,1变为0)的概率为0.001.突变可以增加解空间

二、代码

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

def b2d(b): #将二进制转化为十进制 x∈[0,10] t = 0 for j in range(len(b)): t += b[j] * (math.pow(2, j)) t = t * 10 / 1023 return tpopsize = 50 #种群的大小#用遗传算法求函数最大值:#f(x)=10*sin(5x)+7*cos(4x) x∈[0,10]chromlength = 10 #基因片段的长度pc = 0.6 #两个个体交叉的概率pm = 0.001#基因突变的概率results = [[]]bestindividual = []bestfit = 0fitvalue = []tempop = [[]]pop = [[0, 1, 0, 1, 0, 1, 0, 1, 0, 1] for i in range(popsize)]for i in range(100): #繁殖100代 objvalue = calobjvalue(pop) #计算目标函数值 fitvalue = calfitvalue(objvalue)#计算个体的适应值 [bestindividual, bestfit] = best(pop, fitvalue) #选出最好的个体和最好的函数值 results.append([bestfit,b2d(bestindividual)]) #每次繁殖,将最好的结果记录下来 selection(pop, fitvalue) #自然选择,淘汰掉一部分适应性低的个体 crossover(pop, pc) #交叉繁殖 mutation(pop, pc) #基因突变 results.sort() print(results[-1]) #打印函数最大值和对应的

来自CODE的代码片

GA.py

1

2

3

4

5

6

7

8

9

def best(pop, fitvalue): #找出适应函数值中最大值,和对应的个体 px = len(pop) bestindividual = [] bestfit = fitvalue[0] for i in range(1,px): if(fitvalue[i] >bestfit): bestfit = fitvalue[i] bestindividual = pop[i] return [bestindividual, bestfit]

来自CODE的代码片

best.py

1

2

3

4

5

6

7

8

9

10

11

def calfitvalue(objvalue):#转化为适应值,目标函数值越大越好,负值淘汰。fitvalue = []temp = 0.0Cmin = 0 for i in range(len(objvalue)):if(objvalue[i] + Cmin >0):temp = Cmin + objvalue[i]else:temp = 0.0fitvalue.append(temp)return fitvalue

来自CODE的代码片

calfitvalue.py

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

import mathdef decodechrom(pop): #将种群的二进制基因转化为十进制(0,1023)temp = [] for i in range(len(pop)):t = 0 for j in range(10):t += pop[i][j] * (math.pow(2, j))temp.append(t)return tempdef calobjvalue(pop): #计算目标函数值temp1 = [] objvalue = [] temp1 = decodechrom(pop)for i in range(len(temp1)):x = temp1[i] * 10 / 1023 #(0,1023)转化为 (0,10)objvalue.append(10 * math.sin(5 * x) + 7 * math.cos(4 * x))return objvalue #目标函数值objvalue[m] 与个体基因 pop[m] 对应

来自CODE的代码片

calobjvalue.py

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

import randomdef crossover(pop, pc): #个体间交叉,实现基因交换poplen = len(pop)for i in range(poplen - 1):if(random.random() <pc):cpoint = random.randint(0,len(pop[0]))temp1 = []temp2 = []temp1.extend(pop[i][0 : cpoint])temp1.extend(pop[i+1][cpoint : len(pop[i])])temp2.extend(pop[i+1][0 : cpoint])temp2.extend(pop[i][cpoint : len(pop[i])])pop[i] = temp1pop[i+1] = temp2

来自CODE的代码片

crossover.py

1

2

3

4

5

6

7

8

9

10

11

12

13

import randomdef mutation(pop, pm): #基因突变px = len(pop)py = len(pop[0])for i in range(px):if(random.random() <pm):mpoint = random.randint(0,py-1)if(pop[i][mpoint] == 1):pop[i][mpoint] = 0else:pop[i][mpoint] = 1

来自CODE的代码片

mutation.py

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

import randomdef sum(fitvalue):total = 0for i in range(len(fitvalue)):total += fitvalue[i]return totaldef cumsum(fitvalue):for i in range(len(fitvalue)):t = 0 j = 0 while(j <= i):t += fitvalue[j]j = j + 1fitvalue[i] = tdef selection(pop, fitvalue): #自然选择(轮盘赌算法) newfitvalue = [] totalfit = sum(fitvalue) for i in range(len(fitvalue)): newfitvalue.append(fitvalue[i] / totalfit) cumsum(newfitvalue) ms = [] poplen = len(pop) for i in range(poplen): ms.append(random.random()) #random float list ms ms.sort() fitin = 0 newin = 0 newpop = pop while newin <poplen: if(ms[newin] <newfitvalue[fitin]): newpop[newin] = pop[fitin] newin = newin + 1 else: fitin = fitin + 1 pop = newpop