在 Python 中标准化数据以进行机器学习的 2 种简单方法

嘿,读者们。在本文中,我们将重点关注在 Python 中标准化数据的 2 个重要技术那么,让我们开始吧!


为什么我们需要在 Python 中标准化数据?

在深入研究标准化的概念之前,了解标准化的必要性对我们来说非常重要。

因此,您会看到,我们用来为特定问题陈述构建模型的数据集通常是从各种来源构建的。因此,可以假设数据集包含不同尺度的变量/特征。

为了让我们的机器学习或深度学习模型能够很好地工作,数据在特征方面具有相同的规模是非常有必要的,以避免结果出现偏差。

因此,特征缩放被认为是建模之前的重要步骤。

特征缩放大致可以分为以下几类:

标准化用于数据值normally distributed此外,通过应用标准化,我们倾向于使数据集的平均值为 0,标准差等于 1。

也就是说,通过对数值进行标准化,我们可以得到以下数据分布的统计数据

  • 平均值 = 0
  • 标准差 = 1
标准化

因此,当平均值变为 0并且恰好具有单位方差时,数据集变得不言自明且易于分析


在 Python 中标准化数据的方法

现在让我们在接下来的部分重点讨论实施标准化的各种方法。

1.使用preprocessing.scale()函数

preprocessing.scale(data) function用于将数据值标准化为平均值等于 0、标准差等于 1 的值。

在这里,我们使用以下行将IRIS 数据集加载到环境中:

from sklearn.datasets import load_iris

此外,我们已将虹膜数据集保存到下面创建的数据对象中。

from sklearn import preprocessing
data = load_iris()
 
# separate the independent and dependent variables
X_data = data.data
target = data.target
 
# standardization of dependent variables
standard = preprocessing.scale(X_data)
print(standard)

分离因变量和响应/目标变量后,我们应用preprocessing.scale() function因变量来标准化数据。

输出:

标准化输出

2.使用StandardScaler()函数

Pythonsklearn library为我们提供了StandardScaler() function对数据集进行标准化的方法。

在这里,我们再次使用了 Iris 数据集。

此外,我们创建了 StandardScaler() 的对象,然后应用于fit_transform() function对数据集应用标准化。

from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
 
data = load_iris()
scale= StandardScaler()
 
# separate the independent and dependent variables
X_data = data.data
target = data.target
 
# standardization of dependent variables
scaled_data = scale.fit_transform(X_data)
print(scaled_data)

输出

标准化输出

结论

至此,我们这个话题就结束了。如果您遇到任何问题,请随时在下面发表评论。

到那时,请继续关注并快乐学习!🙂