dnonlee怎么读

非负矩阵分解(NMF)已被证明是一个有鼡的多元数据分解分析了NMF的两种乘法算法,它们的不同之处仅在于更新规则中使用的乘法因子略有不同一种算法可以最小化传统的最尛二乘误差而另一种可以最小化广义Kullback Leibler散度。两种算法的单调收敛性可以使用类似于证明最大期望算法的收敛性的辅助工具去证明该算法吔可以被解释为对角调整梯度下降,其中缩放因子是最佳的选择保证收敛性。

无监督学习算法如主成分分析、矢量量化可以理解为不哃约束条件下的一个数据矩阵分解,根据所使用的约束所得到的因子具有不同的属性表示。主成分分析只执行一个弱正交约束导致一個非常分散的表示,使用取消产生可变性[ 1, 2 ]另一方面,矢量量化使用一个硬赢者通吃的约束将数据聚类成互斥的原型[ 3 ]。

我们正式考虑解決以下问题的算法:

NMF可以用以下方式应用于多元数据的统计分析给定一组多元的n维数据向量,该向量位于一个大小的矩阵的列中其中昰数据集中实例的个数。之后这个矩阵分解成一个的矩阵和一个的矩阵通常的选择小于或,使得和小于原始矩阵这样的结果是得到一個压缩版的原始数据矩阵。

公式(1)中的近似值有什么意义它可以按列重写为,其中和是和的相应列换句话说,每一个数据向量被的列的线性组合近似由的分量加权。因此可以被看作是一个优化的基础用于对中的数据进行线性近似。由于用相对较少的基向量来表示許多数据向量只有在基向量发现数据中隐含的结构时,才能实现良好的近似

本文不是探讨关于NMF的应用,而把注意力集中在探寻非负矩陣分解的技术当然,其他类型的矩阵分解已在数值线性代数进行了广泛的研究但非负约束使得许多以前的工作不适用于本案例[ 8 ]。

本文討论了两种基于迭代更新和NMF算法由于这些算法易于实现,收敛性能得到保证所以我们发现它们在实际应用中非常有用。其他算法可能在整体计算时间内更有效但更难实现,可能不能推广到不同的成本函数

在我们的算法的每一次迭代中,或的新值是通过把当前值乘鉯依赖于等式(1)的近似质量的一个因子来发现的我们证明了随着这些乘法更新规则的应用,近似的质量单调提高在实践中,这意味著更新规则的重复迭代保证收敛到一个局部最优的矩阵分解

为了寻找近似的分解  我们首先需要定义量化近似质量的代价函数这样的玳价函数可以用两个非负矩阵和之间的距离来构造,一个有用的测度是和之间欧几里德距离的平方

这里下限为零。当且仅当时时该式为零

像欧几里德距离一样,这里下界也为零并且当且仅当时该式为零。但是这里不能称之为“距离”因为对于,来说该式是非对称的,所以我们称它为从到“分离度”当时,它降低了K-L散度或相对熵所以和可以视作正态概率分布。

我们现在考虑NMF的两种可选配方作为最優化问题:

问题1:最小化关于和的函数2,约束条件:.

问题2:最小化关于和的函数,约束条件:.

虽然函数2 和单独关于和是凸的但是它们并不是关於,一起时的凸函数因此,期望一个算法在求全局极小值的情况下求解问题1和2是不现实的然而,数值优化有许多技术可以应用于寻找局部极小值

梯度下降也许是最简单的实现技术,但收敛速度可能较慢其他方法如共轭梯度法收敛速度较快,至少在局部极小值附近收斂较快但比梯度下降更为复杂。基于梯度的方法的收敛性也存在对步长选择非常敏感的缺点这对大规模应用是非常不方便的。

我们发現下面的“乘法更新规则”是解决问题1和2的在速度和易实现性之间的一个很好的折中方案

定理1:欧几里得距离2,在此更新法则之下非增的

茬上述更新下,当且仅当和处于距离的一个驻点时欧氏距离是不变的。

定理2:分离度在下述更新法则下是非增的

在上述更新法则下当苴仅当和处于分离度的一个驻点时,分离度是不变的

这些定理的证明在后面的章节中给出。现在我们注意到每个更新都由一个因子乘法。特别是很容易看出当时这种乘法因子是统一的,因此完美的重构必然是更新规则的一个固定点

5 乘法与加法更新规则

将这些乘法更噺与梯度下降产生的结果进行对比是很有用的。特别是的减少平方距离的一个简单的加法更新可以写成

如果都等于一些小的正数,这相當于传统的梯度下降只要这个数字足够小,更新就会导致减小现在我们沿着对角线重新调整变量并设

那么我们就得到了定理1中的更新規则。注意这个乘法因子的调整结果,分母是梯度的正分量,分子是这个因子的负分量的绝对值

对于分离度,对角调整梯度下降采用如下形式

然后我们得到定理2中的更新规则。这个重新调整也可以解释成分母为梯度的正分量分子为乘法因子的负分量的乘法规则

由于我们选擇不很小,因此看起来应该并不保证这种调整梯度下降会导致成本函数下降令人惊讶的是,在下一节中情况确实如此。

为了证明定理1囷2我们将使用一个类似于期望最大化算法中的辅助函数。

辅助函数是一个有用的概念下面的引理也将在图1中图解说明。

引理 1:如果是嘚一个辅助函数那么按照按照如下方式更新,是非递增的

1辅助函数和关系图

注意到只有是函数的局部极小值时才成立。如果的导數存在并且在的一个小的邻域内连续这也意味着导数。因此通过在迭代中更新等式(11),我们会得到如下目标函数的一个收敛到局部极小值嘚估计序列。

我们将通过定义和的适当的辅助函数来说明这一点定理1和2中的更新规则很容易通过等式(11)推出。

引理2:如果是三角矩阵

則如下定义的是的辅助函数

现在我们可以证明定理1的收敛性:

定理1的证明:以等式(14)替代等式(11)中的在下述更新规则中:

由于等式(14)是一个辅助函数,F在此更下规则下是非增的根据引理1,明确的写出这个等式的分量得

通过颠倒引理1和2中的和,在的更新法则下同样鈳以被证明是非增的

接下来考虑关于分离度成本函数的辅助函数:

证明:显然,为了说明 我们利用对数函数的凹性来推导不等式

该式對于所有非负的求和,设

从这个不等式来看证毕。

引理2出自引理1中应用:

定理2的证明:关于的极小值取决于设其梯度为零的极值点即

洇此,公式(11)的更新规则采用如下形式:

由于是一个辅助函数等式(28)中在此更新规则下是非增的。重写成矩阵形式这个式子与等式(5)是等价的。通过颠倒和这个关于的更新规则同样可以证明是非增的。

我们已经证明等式(4)和(5)的应用可以保证至少能够分别找到问题12的局部最优解收敛证明依赖于定义一个适当的辅助函数。我们目前正致力于将这些定理推广到更复杂的约束条件中更新规則本身很容易在计算上实现,并且希望能够被广泛使用

我要回帖

更多关于 denon 的文章

 

随机推荐