EM 算法初学者指南。

EM 算法是期望最大化算法的缩写,是一种算法构建方法。它可以看作是混合模型上的无监督聚类方法。

无监督机器学习是机器学习的一种。要了解更多信息,请查看此链接

EM 算法遵循迭代方法,试图在存在缺失或潜在数据的情况下找到其属性具有最大可能性的概率分布参数。

在本文中,我们将深入研究 EM 算法并广泛涵盖其几乎所有重要概念。我们首先将了解算法的基本功能。然后,看看各种指针,例如 EM 算法的应用、优点和缺点。

了解 EM 算法

它是如何工作的?

这是一种迭代方法;因此,给定一组数据,考虑一组起始参数。EM 算法涉及两个主要步骤:期望和最大化。

该算法不断迭代这两个步骤,直到发生收敛。由于算法包含每次迭代的可能性,直到达到最大值,因此可以保证收敛。

现在我们将了解上面提到的一些重要概念和术语,理解这些概念将使我们更好地理解算法是如何工作的。

期望步骤

众所周知,EM 算法适用于缺失或潜在数据,在这个期望步骤中,算法使用从数据集中获得的任何知识来填充缺失数据的值。简而言之,它试图猜测所有缺失的值,以便在这一步结束时有一个空位。

最大化步长

在此阶段,借助期望步骤结束时生成的完整数据来更新参数。

收敛

收敛是两个随机变量的概率差异可以忽略不计的情况。换句话说,当两个变量的值彼此足够接近时,这种情况称为收敛。

EM 算法的目标

理解了以上几点之后,可以清楚地表明,EM算法主要适用于存在缺失数据的用例。 

EM 算法主要侧重于根据从该数据集中可用的数据中获得的知识来假设缺失值。它以迭代方式执行此操作,直到到达所需位置。

高斯混合模型 (GMM)

高斯混合模型是另一种估计模型。有多种技术可用于实现此模型,最大似然估计是实现此模型的最佳技术之一。

EM算法是帮助估计高斯分布参数的最佳技术。要深入了解高斯分布,请阅读此链接中的文章。

它是如何工作的?

E-步骤:

猜测潜在值的值。

M-步骤:

使用 MLE(最大似然估计)改进 E-Step 中生成的估计。

收敛:

该模型迭代 E 和 M 步骤,直到达到最大似然并发现大量潜在值。

结论

优点

使用 EM 算法有几个优点。其中一些是,总有保证可能性会增加。估计步骤和最大化步骤对于实现方面的许多问题来说非常容易,其中之一我们已经在 GMM 中看到了。 

缺点

每个要研究的元素都有其自身的优点和缺点。讨论完优点或优点后,我们现在可以继续讨论缺点或缺点。

首先,它的收敛速度很慢,这意味着算法需要时间才能达到收敛点。其次,对前向概率和后向概率都有要求。

应用领域

EM算法有着广泛的应用,如下所述:

概括

总结 EM 算法,我们需要了解的是它主要用于缺失数据或潜在数据。这是一种非常易于实现的算法,有其自身的优点和缺点。

人们可以轻松识别他们正在解决的问题,并最终在需要预测缺失值时使用 EM 算法。这是一个简单的概念,仅包含获取参数之后和达到收敛点之前的两个主要步骤。

参考

机器学习中的 EM 算法