去量纲/消除量纲/归一化 怎么理解?

去量纲/消除量纲/归一化 怎么理解?

为什么要去量纲?

进行变量重要性排序(选择对因变量影响最大的自变量)或特征筛选(用于提供后续模型精度等)时,不同的变量单位不同,因此数值差异极大。例如1cm和1kg等。

什么是去量纲?

数据分析的本质是数值,去量纲就是去除掉单位对数值的影响。使得所有的变量都在同等的水平上,才能“公平”的参与后续处理。

常见的去量纲化方法:

注:!此处去除掉网上将z-score方法成为标准化,将min-max称为归一化等叫法。直接用名称可以除去翻译的语义导致的误解,也能去除被必要的区分。

(1)初值化:使用序列数据中的初始值作为除数,消除不同变量之间的量级或单位差异。其结果由样本初始值决定,可以消除不同变量间大量级的差异,处理后数据接近1左右。方便简单,但是随机性较高。

(2)均值化:每个变量除以该变量的均值。可以去除量纲差异,相除后接近1左右。

(3)min-max变换:通过线性变换去除量纲影响。映射结果在[0,1]之间,但容易受到异常值的影响。

好处1:对于原始变异值不大的数据,用该方法可以放大差异。

如:1.70 1.71 1.72 1.73,min-max处理后为0,0.33.0.67,1。

好处2:可以维持稀疏矩阵中的0.

(4)极差最大值变换:也依赖于最小值和最大值。

(5)Z-score变换:zero mean normalization:减去均值,除以标准差。

处理后的数据均值为0,方差接近1,分布接近正态分布。

好处:该方法更适用于涉及到距离关系的应用中,通过该处理后,对数据由于量纲引起的差异去除的更为彻底,因此对于精确的变量差异,如距离计算中,使用该方法更好,例如:相似度,PCA,聚类分析等。 而min-max相当于保存了原始数据标准差所能代表的潜在权重关系。

总结:

具体用啥看情况决定。例如在灰色关联度分析中用均值化,PCA用z-score。

后续自己各种处理中用什么会回来填坑。 作者:大专厂妹の奋斗生活 https://www.bilibili.com/read/cv17032876/ 出处:bilibili

相关推荐

格温妮丝与酷玩主唱离婚 25亿财产成焦点
365bet足球即时比分网

格温妮丝与酷玩主唱离婚 25亿财产成焦点

📅 07-12 ⭐ 4915
红米K30S至尊纪念版有什么优缺点,体验咋样
必发365手机版下载

红米K30S至尊纪念版有什么优缺点,体验咋样

📅 07-23 ⭐ 3834
如何开启/关闭系统自动还原?2种方式一键解决
必发365手机版下载

如何开启/关闭系统自动还原?2种方式一键解决

📅 07-03 ⭐ 7507
常见食材去腥除膻技巧大全 学会以后绝对用得上
想去淘金吗? 中国最“多金”地方, 埋藏470多吨黄金
必发365手机版下载

想去淘金吗? 中国最“多金”地方, 埋藏470多吨黄金

📅 08-08 ⭐ 6575
掌握Android视频加logo技巧,轻松打造个性化视频内容
推荐阅读 ❤️