python 的LinearRegression包,怎么导出回归模型公式?

Python064

python 的LinearRegression包,怎么导出回归模型公式?,第1张

线性回归是机器学习算法中最简单的算法之一,它是监督学习的一种算法,主要思想是在给定训练集上学习得到一个线性函数,在损失函数的约束下,求解相关系数,最终在测试集上测试模型的回归效果。

也就是说 LinearRegression 模型会构造一个线性回归公式

y' = w^T x + b

,其中 w 和 x 均为向量,w 就是系数,截距是 b,得分是根据真实的 y 值和预测值 y' 计算得到的。

简介

本例子是通过对一组逻辑回归映射进行输出,使得网络的权重和偏置达到最理想状态,最后再进行预测。其中,使用GD算法对参数进行更新,损耗函数采取交叉商来表示,一共训练10000次。

2.python代码

#!/usr/bin/python

import numpy

import theano

import theano.tensor as T

rng=numpy.random

N=400

feats=784

# D[0]:generate rand numbers of size N,element between (0,1)

# D[1]:generate rand int number of size N,0 or 1

D=(rng.randn(N,feats),rng.randint(size=N,low=0,high=2))

training_steps=10000

# declare symbolic variables

x=T.matrix('x')

y=T.vector('y')

w=theano.shared(rng.randn(feats),name='w') # w is shared for every input

b=theano.shared(0.,name='b') # b is shared too.

print('Initial model:')

print(w.get_value())

print(b.get_value())

# construct theano expressions,symbolic

p_1=1/(1+T.exp(-T.dot(x,w)-b)) # sigmoid function,probability of target being 1

prediction=p_1>0.5

xent=-y*T.log(p_1)-(1-y)*T.log(1-p_1) # cross entropy

cost=xent.mean()+0.01*(w**2).sum() # cost function to update parameters

gw,gb=T.grad(cost,[w,b]) # stochastic gradient descending algorithm

#compile

train=theano.function(inputs=[x,y],outputs=[prediction,xent],updates=((w,w-0.1*gw),(b,b-0.1*gb)))

predict=theano.function(inputs=[x],outputs=prediction)

# train

for i in range(training_steps):

pred,err=train(D[0],D[1])

print('Final model:')

print(w.get_value())

print(b.get_value())

print('target values for D:')

print(D[1])

print('prediction on D:')

print(predict(D[0]))

print('newly generated data for test:')

test_input=rng.randn(30,feats)

print('result:')

print(predict(test_input))

3.程序解读

如上面所示,首先导入所需的库,theano是一个用于科学计算的库。然后这里我们随机产生一个输入矩阵,大小为400*784的随机数,随机产生一个输出向量大小为400,输出向量为二值的。因此,称为逻辑回归。

然后初始化权重和偏置,它们均为共享变量(shared),其中权重初始化为较小的数,偏置初始化为0,并且打印它们。

这里我们只构建一层网络结构,使用的激活函数为logistic sigmoid function,对输入量乘以权重并考虑偏置以后就可以算出输入的激活值,该值在(0,1)之间,以0.5为界限进行二值化,然后算出交叉商和损耗函数,其中交叉商是代表了我们的激活值与实际理论值的偏离程度。接着我们使用cost分别对w,b进行求解偏导,以上均为符号表达式运算。

接着我们使用theano.function进行编译优化,提高计算效率。得到train函数和predict函数,分别进行训练和预测。

接着,我们对数据进行10000次的训练,每次训练都会按照GD算法进行更新参数,最后我们得到了想要的模型,产生一组新的输入,即可进行预测。