嘿,读者们。在本文中,我们将重点关注在 Python 中标准化数据的 2 个重要技术。那么,让我们开始吧!
为什么我们需要在 Python 中标准化数据?
在深入研究标准化的概念之前,了解标准化的必要性对我们来说非常重要。
因此,您会看到,我们用来为特定问题陈述构建模型的数据集通常是从各种来源构建的。因此,可以假设数据集包含不同尺度的变量/特征。
为了让我们的机器学习或深度学习模型能够很好地工作,数据在特征方面具有相同的规模是非常有必要的,以避免结果出现偏差。
因此,特征缩放被认为是建模之前的重要步骤。
特征缩放大致可以分为以下几类:
- 正常化
- 标准化
标准化用于数据值normally distributed
。此外,通过应用标准化,我们倾向于使数据集的平均值为 0,标准差等于 1。
也就是说,通过对数值进行标准化,我们可以得到以下数据分布的统计数据
- 平均值 = 0
- 标准差 = 1
因此,当平均值变为 0并且恰好具有单位方差时,数据集变得不言自明且易于分析。
在 Python 中标准化数据的方法
现在让我们在接下来的部分重点讨论实施标准化的各种方法。
1.使用preprocessing.scale()函数
可preprocessing.scale(data) function
用于将数据值标准化为平均值等于 0、标准差等于 1 的值。
在这里,我们使用以下行将IRIS 数据集加载到环境中:
from sklearn.datasets import load_iris |
此外,我们已将虹膜数据集保存到下面创建的数据对象中。
from sklearn import preprocessing data = load_iris() # separate the independent and dependent variables X_data = data.data target = data.target # standardization of dependent variables standard = preprocessing.scale(X_data) print (standard) |
分离因变量和响应/目标变量后,我们应用preprocessing.scale() function
因变量来标准化数据。
输出:
2.使用StandardScaler()函数
Pythonsklearn library
为我们提供了StandardScaler() function
对数据集进行标准化的方法。
在这里,我们再次使用了 Iris 数据集。
此外,我们创建了 StandardScaler() 的对象,然后应用于fit_transform() function
对数据集应用标准化。
from sklearn.datasets import load_iris from sklearn.preprocessing import StandardScaler data = load_iris() scale = StandardScaler() # separate the independent and dependent variables X_data = data.data target = data.target # standardization of dependent variables scaled_data = scale.fit_transform(X_data) print (scaled_data) |
输出:
结论
至此,我们这个话题就结束了。如果您遇到任何问题,请随时在下面发表评论。
到那时,请继续关注并快乐学习!🙂