python怎样生成正太分布的随机数?

Python013

python怎样生成正太分布的随机数?,第1张

一般的正态分布可以通过标准正态分布配合数学期望向量和协方差矩阵得到。

格式为:numpy.random.randn(d0, d1, ..., dn)

Python使用Mersenne Twister为核心的生成器,它会生成53 bit精度的浮点值,周期为2的19937次方减1,底层的C语言实现是快速和线程安全的.

最近在做的项目重点部分与大量生成随机数有关,维度高达[1700000,10000],需要生成 10 x 30 次左右,这里遇到内存和速度的双重瓶颈,特地研究了一下如何优化随机数。

优化时间测试所需的分析工具在另一篇博客《性能优化系列一:分析工具》中提到。

原生的python中也有随机模块生成 random.randint 和 random.random 等,但是速度非常慢,numpy 速度可以大幅提升。一般都采用numpy生成随机数。

比较常用的就是以上几种。在需要生成大量随机数的情况下,或生成伪随机数的情况下,python 3.7 常用 RandomState 。

直接生成大规模非稀疏矩阵如下,经常遇到 MemoryError 的错误,大概是同时生成多个float64精度的大规模随机矩阵服务器内存不够,而random state 似乎也没提供调整类型的attr,

这时最好使用即使生成即使销毁,仅保留种子作为索引,同样,多个CPU之间共享大规模矩阵涉及到共享内存或数据传输同步较慢的问题,最好也共享seed而不是直接共享矩阵。

ps. 这里注意一般我们设置time.time()为种子时,对于并发性程序是无效的,不要在并发程序中同时定义,建议生成一个seed list 列表再从中取。

这里可以对大规模矩阵进行分片以进行后续的np 乘法,再切片赋值,以时间换内存。这种情况的麻烦在于如果设定随机数种子会导致每个分片的随机数相同。可以利用一个最初seed(爷爷种子)randint生成 一组切片组数的seed(父亲种子),再每次从中取不同的随机数。

在上述切片方法尝试之后,可以解决内存问题。但是时间非常慢,特别是采取s = 1时在standard normal 上调用170万次的时间长达3000s,line search一下搜索了大约100000为切片值仍然太慢。在文档中发现了 BitGenerator 和 Generator ,大约可以提速到原来的 1/3。

除了Numpy和基本模块之外,AES CTR 加密算法生成随机数也很快,但是并不能有比较方便的方式控制每次生成的一样。参见以下reference。

tensorflow 和 pytorch 也都有大规模生成随机tensor的方式。性能待考。

1. 超快生成随机数的方式CSDN博客

2. tensorflow 生成随机tensor

在python中用于生成随机数的模块是random,在使用前需要import

random.random:

random.random():生成一个0-1之间的随机浮点数.例:

[python] view plain copy

import random

print random.random()

# 0.87594424128

random.uniform

random.uniform(a, b):生成[a,b]之间的浮点数.例:

[python] view plain copy

import random

print random.uniform(0, 10)

# 5.27462570463

random.ranint

random.randint(a, b):生成[a,b]之间的整数.例:

[python] view plain copy

import random

print random.randint(0, 10)

# 8

random.randrange

random.randrange(a, b, step):在指定的集合[a,b)中,以step为基数随机取一个数.如random.randrange(0, 20, 2),相当于从[0,2,4,6,...,18]中随机取一个.例:

[python] view plain copy

import random

print random.randrange(0, 20, 2)

# 14