Python 中的函数拟合

2023-02-26 16:04:02Python020

Python 中的函数拟合,第1张

很多业务场景中，我们希望通过一个特定的函数来拟合业务数据，以此来预测未来数据的变化趋势。(比如用户的留存变化、付费变化等)

本文主要介绍在 Python 中常用的两种曲线拟合方法：多项式拟合和自定义函数拟合。

通过多项式拟合，我们只需要指定想要拟合的多项式的最高项次是多少即可。

运行结果：

对于自定义函数拟合，不仅可以用于直线、二次曲线、三次曲线的拟合，它可以适用于任意形式的曲线的拟合，只要定义好合适的曲线方程即可。

运行结果：

应该是不可以的

import numpy as np

from scipy.optimize import leastsq

import pylab as pl

x = np.arange(1, 17, 1)

y = np.array([4.00, 6.40, 8.00, 8.80, 9.22, 9.50, 9.70, 9.86, 10.00, 10.20, 10.32, 10.42, 10.50, 10.55, 10.58, 10.60])

#第一个拟合，自由度为3

z1 = np.polyfit(x, y, 3)

# 生成多项式对象

p1 = np.poly1d(z1)

print(z1)

print(p1)

# 第二个拟合，自由度为6

z2 = np.polyfit(x, y, 6)

# 生成多项式对象

p2 = np.poly1d(z2)print(z2)print(p2) # 绘制曲线 # 原曲线pl.plot(x, y, 'b^-', label='Origin Line')pl.plot(x, p1(x), 'gv--', label='Poly Fitting Line(deg=3)')pl.plot(x, p2(x), 'r*', label='Poly Fitting Line(deg=6)')pl.axis([0, 18, 0, 18])pl.legend()# Save figurepl.savefig('scipy02.png', dpi=96)

线性模型（二）之多项式拟合

1. 多项式拟合问题

多项式拟合（polynominal curve fitting）是一种线性模型，模型和拟合参数的关系是线性的。多项式拟合的输入是一维的，即x=xx=x，这是多项式拟合和线性回归问题的主要区别之一。

多项式拟合的目标是构造输入xx的MM阶多项式函数，使得该多项式能够近似表示输入xx和输出yy的关系，虽然实际上xx和yy的关系并不一定是多项式，但使用足够多的阶数，总是可以逼近表示输入xx和输出yy的关系的。

多项式拟合问题的输入可以表示如下：

D={(x1,y1),(x2,y2),...,(xi,yi),...,(xN,yN)}xi∈Ryi∈R

目标输出是得到一个多项式函数：

f(x)=w1x1+w2x2+wixi+...+wMxM+b=(∑i=1Mwixi)+b

其中MM表示最高阶数为MM。

可见在线性拟合的模型中，共包括了(M+1)(M+1)个参数，而该模型虽然不是输入xx的线性函数，但却是(M+1)(M+1)个拟合参数的线性函数，所以称多项式拟合为线性模型。对于多项式拟合问题，其实就是要确定这(M+1)(M+1)个参数，这里先假设阶数MM是固定的（MM是一个超参数，可以用验证集来确定MM最优的值，详细的关于MM值确定的问题，后面再讨论），重点就在于如何求出这(M+1)(M+1)个参数的值。

2.优化目标

多项式拟合是利用多项式函数逼近输入xx和输出yy的函数关系，通过什么指标来衡量某个多项式函数的逼近程度呢？（其实这就是误差/损失函数）。拟合/回归问题常用的评价指标是均方误差（在机器学习中的模型评估与度量博客中，我进行了介绍）。多项式拟合问题也同样采用该评价指标，以均方误差作为误差/损失函数，误差函数越小，模型越好。

E(w,b)=1N∑i=1N[f(xi)−yi]2

系数1N1N是一常数，对优化结果无影响，可以去除，即将均方误差替换为平方误差：

E(w,b)=∑i=1N[f(xi)−yi]2

到这里，就成功把多项式拟合问题变成了最优化问题，优化问题可表示为：

argminw,bE(w,b)

arg⁡minw,b⁡E(w,b)

即需要求得参数{w1,...,wM,b}{w1,...,wM,b}的值，使得E(w,b)E(w,b)最小化。那么如何对该最优化问题求解呢？

3. 优化问题求解

3.1 求偏导，联立方程求解

直观的想法是，直接对所有参数求偏导，令偏导为0，再联立这M+1M+1个方程求解（因为共有M+1M+1个参数，故求偏导后也是得到M+1M+1个方程）。

E(w,b)=∑i=1N[f(xi)−yi]2=∑i=1N[(w1x1i+w2x2i+wixji+...+wMxMi+b)−yi]2

E(w,b)=∑i=1N[f(xi)−yi]2=∑i=1N[(w1xi1+w2xi2+wixij+...+wMxiM+b)−yi]2

利用E(w,b)E(w,b)对各个参数求偏导，如下：

∂E(w,b)∂wj∂E(w,b)∂b=2∑i=1N[(w1x1i+w2x2i+wixji+...+wMxMi+b)−yi]xji=2∑i=1N[(w1x1i+w2x2i+wixji+...+wMxMi+b)−yi]

∂E(w,b)∂wj=2∑i=1N[(w1xi1+w2xi2+wixij+...+wMxiM+b)−yi]xij∂E(w,b)∂b=2∑i=1N[(w1xi1+w2xi2+wixij+...+wMxiM+b)−yi]

求导之后，将各个点(xi,yi)(xi,yi)的值带入偏导公式，联立方程求解即可。

针对该解法，可以举个例子详细说明，比如有两个点(2,3),(5,8)(2,3),(5,8),需要利用二阶多项式f(x)=w1x+w2x2+bf(x)=w1x+w2x2+b拟合。求解过程如下：

该二阶多项式对参数求偏导得到

∂E(w,b)∂wj∂E(w,b)∂b=2∑i=12[(w1x1i+w2x2i+b)−yi]xji=[(w1x1+w2x21+b)−y1]xj1+[(w1x2+w2x22+b)−y2]xj2=2∑i=12[(w1x1i+w2x2i+b)−yi]=[(w1x1+w2x21+b)−y1]+[(w1x2+w2x22+b)−y2]

∂E(w,b)∂wj=2∑i=12[(w1xi1+w2xi2+b)−yi]xij=[(w1x1+w2x12+b)−y1]x1j+[(w1x2+w2x22+b)−y2]x2j∂E(w,b)∂b=2∑i=12[(w1xi1+w2xi2+b)−yi]=[(w1x1+w2x12+b)−y1]+[(w1x2+w2x22+b)−y2]

将点(2,3),(5,8)(2,3),(5,8)带入方程，可以得到3个方程，

2b+7w1+29w2=117b+29w1+133w2=4629b+133w1+641w2=212

联立这三个方程求解，发现有无穷多的解，只能得到3w1+21w2=53w1+21w2=5，这三个方程是线性相关的，故没有唯一解。

该方法通过求偏导，再联立方程求解，比较复杂，看着也很不美观。那么有没有更加方便的方法呢？

3.2 最小二乘法

其实求解该最优化问题（平方和的最小值）一般会采用最小二乘法（其实最小二乘法和求偏导再联立方程求解的方法无本质区别，求偏导也是最小二乘法，只是这里介绍最小二乘的矩阵形式而已）。最小二乘法（least squares），从英文名非常容易想到，该方法就是求解平方和的最小值的方法。

可以将误差函数以矩阵的表示(NN个点，最高MM阶)为：

∥Xw−y∥2

‖Xw−y‖2

其中，把偏置bb融合到了参数ww中，

w={b,w1,w2,...,wM}

XX则表示输入矩阵，