SVM 中的核函数是基于输入数据点之间的距离来定义的,如果数据点之间的距离是不一致的,那么核函数的结果就会受到影响。标准化可以确保所有特征在相同尺度上进行计算,避免因为某些特征取值范围过大而导致其他特征被忽略。
因此, 在使用SVM进行回归分析时, 应该对数据进行标准化,比如使用StandardScaler类对数据进行标准化。这样做可以使模型的预测更加准确。
数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。最典型的就是数据的归一化处理,即将数据统一映射到(0,1]区间上
(1)0-1标准化
将数据的最大最小值记录下来,并通过max-min作为基数(即min=0,max=1)进行数据的归一化处理
x=(x - min) / (max - min)
(2)Z-score标准化
Z分数(z-score),是一个分数与平均数的差再除以标准差的过程 → z=(x-μ)/σ,其中x为某一具体分数,μ为平均数,σ为标准差
Z值的量代表着原始分数和母体平均值之间的距离,是以标准差为单位计算。在原始分数低于平均值时Z则为负数,反之则为正数
数学意义:一个给定分数距离平均数多少个标准差?